Article 2. 분석 모형 정의 3112
Section 1. 분석 절차 수립
Paragraph 1. 분석 모형 정의 개념
- 분석 모형 정의는 분석 모형을 선정하고 모형(Model)에 적합한 변수를 선택하여 모형의 사양(Specification)을 작성하는 기법이다.
- 선택한 모델에 가장 적합한 변수를 선택하기 위해 파라미터와 하이퍼 파라미터를 선정한다.
-
파라미터(Parameter)
-
모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값
-
예측을 수행할 때, 모델에 의해 요구되어지는 값들
-
파라미터가 모델의 성능을 결정
-
파라미터는 측정되거나 데이터로부터 학습
-
사람에 의해 수작업으로 측정되지 않음
-
종종 학습된 모델의 일부로 저장
예) 인공신경망에서의 가중치, 서포트 벡터 머신에서의 서포트 벡터, 선형회귀나 로지스틱 회귀 분석에서의 결정계수
-
-
하이퍼 파라미터(Hyper-Parameter)
-
모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주는 값
-
모델의 파라미터값을 측정하기 위해 알고리즘 구현 과정에서 사용
-
하이퍼 파라미터는 주로 알고리즘 사용자에 의해 결정
-
경험에 의해 결정 가능한 값
-
예측 알고리즘 모델링의 성능 등의 문제를 위해 조절
신경망 학습에서 학습률(Learning Rate), 의사결정나무에서 나무의 깊이, KNN에서 K의 개수
-
Paragraph 2. 분석 모형 정의 고려사항
- 분석 대상인 데이터에 비해 모델이 너무 간단하면
과소 적합
이 발생하고, 모델을 너무 복잡하게 선택하면과대 적합
이 발생하므로 적절한 모델을 사용한다.
- 모형에 적합하지 않은 오류 및 편향이 발생하지 않도록 주의한다.
⬇부적합 모형 현생
현상 | 설명 |
---|---|
모형 선택 오류 | • 적합하지 않은 함수 모형 생성 |
변수 누락 | • 종속변수와 하나 또는 둘 이상의 독립변수 사이에 관계가 있지만 모델을 생성할 때 누락되는 경우 |
부적합 변수 생성 | • 관련이 없는 변수가 모델에 포함된 경우 • 편향(Bias)을 발생시키지는 않으나 과대 적합을 발생시켜 예측 성능을 저하시킴 |
동시 편향 | • 종속변수가 연릭 방정식의 일부인 경우 동시 편향 발생 |
분석 모형 정의 사례