Section 1. 데이터 수집 및 전환 1310
Chapter 3. 데이터 수집 및 저장 계획
Article 1. 데이터 수집
Article 2. 데이터 유형 및 속성 파악
Article 3. 데이터 변환
Article 4. 데이터 비식별화
Article 5. 데이터 품질 검증
- 데이터 수집 및 전환은 데이터 처리 기술 중 하나이다
- 전체적인 데이터 처리 기술은 데이터 필터링, 데이터 변환, 데이터 정제, 데이터 통합, 데이터 축소가 있다.
- 데이터 필터링
- 정형 데이터는 사전 테스트를 통하여 오류 발견, 보정, 삭제, 중복성 검사와 같은 과정을 통해 필터링
- 비정형 데이터는 데이터 마이닝에 자연어처리, 기계학습과 같은 추가 기술을 적용하여 오류 데이터, 중복 데이터와 같은 저품질 데이터를 필터링
- 데이터 활용 목적에 맞지 않는 정보를 필터링하여 분석시간을 단축하고 저장 공간을 효율적으로 활용
- 데이터 변환
- 다양한 형식으로 수집된 데이터를 분석이 쉽도록 일관성 있는 형식으로 변환
- 데이터 변환에는 평활화, 집계, 일반화, 정규화, 속성 생성 기술을 사용
- 데이터 정제
- 수집된 데이터의 불일치성을 교정하기 위한 방식으로 결측값 처리, 잡음(Noise) 처리 기술 활용
- 데이터 통합
- 출처가 다른 상호 연관성이 있는 데이터들을 하나로 결합하는 기술
- 데이터 통합 시 같은 데이터가 입력될 수 있으므로 연관 관계 분석 등을 통해 중복 데이터 검출 필요
- 데이터 통합 전·후 수치·통계 등의 데이터값들이 일치할 수 있도록 검증
- 데이터 축소
- 분석에 불필요한 데이터를 축소하여 고유한 특성은 손상되지 않도록 하고 분석에 대한 효율성 증대