Article 3. 데이터 변환 1313
Section 1. 데이터 수집 및 전환
Paragraph 1. 데이터 저장 전처리 절차
Subparagraph 1. 데이터 저장 전처리 절차
- 수집된 데이터는 활용 먹적에 맞도록 적절한 처리 방식을 선정하여 전·후처리 단계를 거쳐야 한다.
- 데이터 유형과 분석 목적 등을 고려하여 데이터 저장 전·후처리 기법을 선정한다.
- 데이터 필터링, 변환, 정제, 통합, 축소 등 선정된 데이터 전·후처리 방식에 따라서 데이터를 처리한다.
Subparagraph 2. 데이터 저장 전·후처리 시 고려사항
- 데이터 전처리
- 수집된 데이터의 유형을 분류할 경우는 분류 기준을 적용할 수 있는 기능 제공 필요
- 데이터의 유형을 분류하고 이에 대한 데이터 변환에 필요한 알고리즘 함수 또는 변환 구조를 정의할 수 있는 기능 제공 필요
- 데이터 변환 시 사용자가 지정한 변환 형식에 준하여 변환이 이루어졌는지 확인할 수 있는 기능 제공 필요
- 데이터 변환 실패 시 데이터 변환 실패 부분에 대하여 재시도 할 수 있는 기능을 제공하거나 신규 변환 데이터 생성을 취소할 수 있는 기능 제공 필요
- 데이터 변환이 실패했을 경우 이력을 저장하고 사용자에게 전달할 수 있는 기능 제공 필요
- 변환된 데이터를 저장하는 기능 제공 필요
- 데이터 후처리
- 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 데이터(이상값(Outlier))를 추세에 맞게 변환 또는 자동 추천할 수 있는 기능 제공 필요
- 집계(Aggregation) 시 데이터를 요약하는 기능 제공 필요
- 특정 구간에 분포하는 값을 추출하거나 이를 사용자가 직관적으로 확인할 수 있도록 하여 데이터 변환 시 발생할 수 있는 변환, 패턴, 이벤트를 감시할 수 있는 기능 제공 필요
- 데이터 변환 후 사전 저장된 원시 데이터 세트와 변환 후 데이터 간의 변호나 로그를 저장 관리할 수 있는 기능 제공 필요
Subparagraph 3. 데이터 처리 방식 선정
- 수집된 데이터를 저장하기 위한 전처리 단계, 저장된 데이터를 분석하기 전에 수행하는 후처리 단계로 구분한다.
- 전처리 단계
- 수집한 데이터를 저장소에 적재하기 위한 작업으로 데이터 필터링, 유형 변환, 정제 등의 기술 활용
- 후처리 단계
- 저장된 데이터를 분석이 용이하도록 가공하는 작업으로 변환, 통합, 축소 등의 기술 활용
- 데이터 유형과 분석 목적 등을 검토하여 전·후처리 기술을 선택한다.
- 분석에 걸리는 시간과 노력을 절약할 수 있도록 일관성 있는 데이터 형태로 통합한다.
- 분석 효율을 높이 수 있도록 데이터로부터 의미 있는 정보만 추출한다.
- 의미 파악이 어려운 비정형 데이터는 분석이 가능한 형태로 변환한다.
Paragraph 2. 데이터 변환 기술
- 데이터 변환은 데이터의 특정 변수를 정해진 규칙에 따라 바꿔주는 것이다.
- 데이터들에 대한 유형과 활용 목적에 따라 데이터 변환 여부와 변환 기술을 결정한다
Subparagraph 1. 데이터 변환 기술
일반적인 데이터 변환 기술에는 평활화, 집계, 일반화, 정규화, 속성 생성 등이 있다.
-
평활화(Smoothing)
- 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 값들을 변환하는 기법
- 데이터 집합에 존재하는 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만들기 위해 구간화, 군집화 등의 기법 적용
-
집계(Aggregation)
- 다양한 차원의 방법으로 데이터를 요약하는 기법
- 복수 개의 속성을 하나로 줄이거나 유사한 데이터 객체(Data Object)를 줄이고, 스케일을 변경하는 기법 적용
-
일반화(Generalization)
- 특정 구간에 분포하는 값으로 스케일을 변화시키는 기법
- 일부 특정 데이터만 잘 설명하는 것이 아니라 범용적인 데이터에 적합한 모델을 만드는 기법
- 잘된 일반화는 이상값이나 노이즈가 들어와도 크게 흔들리지 않아야 함
-
정규화(Nomalization)
-
데이터를 정해진 구간 내에 들도록 하는 기법
예) 데이터 속성값으로 -1.0 ~ 1.0
-
최단 근접 분류와 군집화와 같은 거리 측정 등을 위해 특히 유용
-
데이터에 대한 최소-최대 정규화, z-스코어 정규화, 소수 스케일링 등 통계적 기법 적용
-
-
속성 생성(Attribute/Feature Construction)
- 데이터 통합을 위해 새로운 속성이나 특징을 만드는 방법
- 주어진 여러 데이터 분포를 대표할 수 있는 새로운 속성/특징을 활용하는 기법
- 선택한 속성을 하나 이상의 새 속성으로 대체하여 데이터를 변경 처리
- 데이터 통합을 위해 새로운 속성이나 특징을 만드는 방법
Subparagraph 2. 데이터 변환 기술 - 정규화 기법 상세
- 특히 정규화 기법의 경우는 아래와 같이 세 가지 기법이 주로활용된다.
-
최소-최대 정규화(Min-Max Normalization)
-
최소-최대 정규화는 데이터를 정규화하는 가장 일반적인 기법
-
모든 데이터에 대해 각각의 최솟값 0, 최댓값 1로, 그리고 다른 값들은 0과 1사이의 값으로 변환하는 기법
어떤 특성의 최솟값이 20이고 최댓값이 40인 경우, 30이 중간이므로 0.5로 변환
-
최소-최대 정규화의 단점은 이상값에 너무 많은 영향을 받음
-
-
Z-스코어 정규화(Z-Score Normalization)
- Z-스코어 정규화는 이상값 문제를 피하는 데이터 정규화 전략
- 데이터들의 평균과 표준편차를 구하고, 평균 대비 몇 표준편차만큼 데이터가 떨어져 있는지를 점수화하는 기법
-
소수 스케일링(Decimal Scaling)
- 특성값의 소수점을 이동하여 데이터 크기를 조정하는 정규화 기법
- 수집된 데이터는 데이터 변환 기술을 통해 목적에 맞도록 변환된 후 정해진 저장공간에 저장한다.