Article 2. 데이터 결측값 처리 2112
Section 1. 데이터 정제
Paragraph 1. 데이터 결측값(Data Missing Value) 개념
- 결측값이란 입력이 누락된 값을 의미한다.
- 결측값은 NA, 999999, Null 등으로 표현한다.
Paragraph 2. 데이터 결측값 종류
- 완전 무작위 결측(MCAR; Missing Completely At Random)
- 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는경우
수입에서 결측 발생 시 응답자와 무응답자 간에 어떤 차이가 없다면 응답자의 수입에 관한 분포와 무응답자 수입에 관한 분포가 같음
- 변수상에서 발생한 결측값이 다른 변수들과 아무런 상관이 없는경우
- 무작위 결측(MAR; Missing At Random)
- 누락된 자료가 특정 변수와 관련되어 일어나지만, 그 변수의 결과는 관계가 없는 경우
- 누락이 전체 정보가 있는 변수로 설명이 될 수 있음을 의미(누락이 완전히 설명될 수 있는 경우 발생)
남성은 우울증 설문 조사에 기재할 확률이 낮지만 우울함의 정도와는 상관이 없는 경우 발생)
- 비 무작위 결측(MNAR; Missing Not At Random)
- 누락된 값(변수의 결과)이 다른 변수와 연관이 있는 경우
소득에 관한 무응답이 소득 자체와 관련(세금에 관한 정보가 주어졌더라도 소득이 높은 사람이 더 높은 무응답률을 보이는 경우)
- 누락된 값(변수의 결과)이 다른 변수와 연관이 있는 경우
Paragraph 3. 데이터 결측값 처리 절차
-
결측값 식별
- 원본 데이터에서 다양한 형태로 결측 정보가 표현되어 있으므로 현황 파악을 해야 함
-
결측값 부호화
-
파악된 정보를 바탕으로 컴퓨터가 처리 가능한 형태로 부호화
이름 내용 NA(Not Available) 기록되지 않은 값 NaN(Not a Number) 수학적으로 정의되지 않은 값 int(infinite) 무한대 NULL 값이 없음
-
-
결측값 대체
- 결측값을 자료형에 맞춰 대체 알고리즘을 통해 결측값을 처리
Paragraph 4. 데이터 결측값 처리 방법
Subparagraph 1. 단순 대치법
Clause 1. 단순 대치법(Single Imputation) 개념
- 결측값을 그럴듯한 값으로 대체하는 통계적 기법이다.
- 결측값을 가진 자료 분석에 사용하기가 쉽고, 통계적 추론에 사용된 통계량의 효율성 및 일치성 등의 문제를 부분적으로 보완해준다.
- 대체된 자료는 결측값 없이 완전한 형태를 지닌다.
Clause 2. 단순 대치법의 종류
- 완전 분석법(Completes Analysis)
- 불완전 자료는 모두 무시하고 완전하게 관측된 자료만 사용하여 분석하는 방법
- 분석은 쉽지만 부분적으로 관측된 자료가 무시되어 효율성이 상실되고 통계적 추론의 타당성 문제가 발생
- 평균 대치법(Mean Imputation)
- 관측 또는 실험되어 얻어진 자료의 평균값으로 결측값을 대치해서 불완전한 자료를 완전한 자료로 만드는 방법
- 대표적 방법으로 비 조건부 평균 대치법과 조건부 평균 대치법이 있음
- 단순 확률 대치법(Single Stochastic Imputation)
- 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여한 후 대치하는 방법
Clause 3. 단순 확률 대치법의 종류
- Hot-Deck 대체
- 무응답을 현재 진행중인 연구에서 ‘비슷한’ 성향을 가진 응답자의 자료로 대체하는 방법
- 표본조사에서 흔히 사용
- Cold-Deck 대체
- 핫덱과 비슷하나 대체할 자료를 현재 진행 중인 연구에서 얻는 것이 아니라 외부 출처 또는 이전의 비슷한 연구에서 가져오는 방법
- 혼합 방법
- 몇 가지 다른 방법을 혼합하는 방법
- 예를 들어, 회귀 대체를 이용하여 예측값을 얻고 핫덱 방법을 이용하여 잔차를 얻어 두 값을 더하는 경우
Subparagraph 2. 다중 대치법
1. 다중 대치법(Multiple Imputation) 개념
- 단순 대치법을 한 번 하지 않고 m번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법이다.
- 다중 대치법은 대치 ➡ 분석 ➡ 결합의 3단계로 구성되어 있다.
Clause 2. 다중 대치법 적용 방식
- 다중 대치 방법은 원 표본의 결측값을 한 번 이상 대치하여 여러 개(D≥2)의 대치된 표본을 구하는 방법이다.
- D개의 대치된 표본을 만들어야 하므로 항상 값은 값으로 결측 자료를 대치할 수 없다.
- 대치
- 각 대치표본은 결측 자료의 예측분포 또는 사후분포에서 추출된 값으로 결측값을 대치하는 방법 활용
- 다중 대치 방법은 베이지안 방법 이용
- 분석
- 같은 예측 분포로부터 대치 값을 구하여 D개의 대치표본을 구하게 되면 이 D개의 대치표본으로부터 원하는 분석을 각각 수행함
- 결합
- 모수 θ의 점 추정과 표준 오차의 추정치를 D개 구한 후 이들을 결합하여 하나의 결과를 제시
- 다중 대치법은 여러 번의 대체표본으로 대체 내 분산과 대체 간 분산을 구하여 추정치의 총 분산을 추정하는 방법이다.
- 대체로 발생하는 불확실성은 대체-간 분산 부분에서 고려함으로써 과소 추정된 분산 추정치가 원 분산에 가까워지도록 해야 한다.