Article 3. 데이터 변환 1313

3 minute read

Section 1. 데이터 수집 및 전환

Paragraph 1. 데이터 저장 전처리 절차

Subparagraph 1. 데이터 저장 전처리 절차

  • 수집된 데이터는 활용 먹적에 맞도록 적절한 처리 방식을 선정하여 전·후처리 단계를 거쳐야 한다.
  • 데이터 유형과 분석 목적 등을 고려하여 데이터 저장 전·후처리 기법을 선정한다.
  • 데이터 필터링, 변환, 정제, 통합, 축소 등 선정된 데이터 전·후처리 방식에 따라서 데이터를 처리한다.

Subparagraph 2. 데이터 저장 전·후처리 시 고려사항

  1. 데이터 전처리
    • 수집된 데이터의 유형을 분류할 경우는 분류 기준을 적용할 수 있는 기능 제공 필요
    • 데이터의 유형을 분류하고 이에 대한 데이터 변환에 필요한 알고리즘 함수 또는 변환 구조를 정의할 수 있는 기능 제공 필요
    • 데이터 변환 시 사용자가 지정한 변환 형식에 준하여 변환이 이루어졌는지 확인할 수 있는 기능 제공 필요
    • 데이터 변환 실패 시 데이터 변환 실패 부분에 대하여 재시도 할 수 있는 기능을 제공하거나 신규 변환 데이터 생성을 취소할 수 있는 기능 제공 필요
    • 데이터 변환이 실패했을 경우 이력을 저장하고 사용자에게 전달할 수 있는 기능 제공 필요
    • 변환된 데이터를 저장하는 기능 제공 필요
  2. 데이터 후처리
    • 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 데이터(이상값(Outlier))를 추세에 맞게 변환 또는 자동 추천할 수 있는 기능 제공 필요
    • 집계(Aggregation) 시 데이터를 요약하는 기능 제공 필요
    • 특정 구간에 분포하는 값을 추출하거나 이를 사용자가 직관적으로 확인할 수 있도록 하여 데이터 변환 시 발생할 수 있는 변환, 패턴, 이벤트를 감시할 수 있는 기능 제공 필요
    • 데이터 변환 후 사전 저장된 원시 데이터 세트와 변환 후 데이터 간의 변호나 로그를 저장 관리할 수 있는 기능 제공 필요

Subparagraph 3. 데이터 처리 방식 선정

  • 수집된 데이터를 저장하기 위한 전처리 단계, 저장된 데이터를 분석하기 전에 수행하는 후처리 단계로 구분한다.
  1. 전처리 단계
    • 수집한 데이터를 저장소에 적재하기 위한 작업으로 데이터 필터링, 유형 변환, 정제 등의 기술 활용
  2. 후처리 단계
    • 저장된 데이터를 분석이 용이하도록 가공하는 작업으로 변환, 통합, 축소 등의 기술 활용
  • 데이터 유형과 분석 목적 등을 검토하여 전·후처리 기술을 선택한다.
  • 분석에 걸리는 시간과 노력을 절약할 수 있도록 일관성 있는 데이터 형태로 통합한다.
  • 분석 효율을 높이 수 있도록 데이터로부터 의미 있는 정보만 추출한다.
  • 의미 파악이 어려운 비정형 데이터는 분석이 가능한 형태로 변환한다.

Paragraph 2. 데이터 변환 기술

  • 데이터 변환은 데이터의 특정 변수를 정해진 규칙에 따라 바꿔주는 것이다.
  • 데이터들에 대한 유형과 활용 목적에 따라 데이터 변환 여부와 변환 기술을 결정한다

Subparagraph 1. 데이터 변환 기술

일반적인 데이터 변환 기술에는 평활화, 집계, 일반화, 정규화, 속성 생성 등이 있다.

  1. 평활화(Smoothing)

    • 데이터로부터 잡음을 제거하기 위해 데이터 추세에 벗어나는 값들을 변환하는 기법
    • 데이터 집합에 존재하는 잡음으로 인해 거칠게 분포된 데이터를 매끄럽게 만들기 위해 구간화, 군집화 등의 기법 적용
  2. 집계(Aggregation)

    • 다양한 차원의 방법으로 데이터를 요약하는 기법
    • 복수 개의 속성을 하나로 줄이거나 유사한 데이터 객체(Data Object)를 줄이고, 스케일을 변경하는 기법 적용
  3. 일반화(Generalization)

    • 특정 구간에 분포하는 값으로 스케일을 변화시키는 기법
    • 일부 특정 데이터만 잘 설명하는 것이 아니라 범용적인 데이터에 적합한 모델을 만드는 기법
    • 잘된 일반화는 이상값이나 노이즈가 들어와도 크게 흔들리지 않아야 함
  4. 정규화(Nomalization)

    • 데이터를 정해진 구간 내에 들도록 하는 기법

      예) 데이터 속성값으로 -1.0 ~ 1.0

    • 최단 근접 분류와 군집화와 같은 거리 측정 등을 위해 특히 유용

    • 데이터에 대한 최소-최대 정규화, z-스코어 정규화, 소수 스케일링 등 통계적 기법 적용

  5. 속성 생성(Attribute/Feature Construction)

    • 데이터 통합을 위해 새로운 속성이나 특징을 만드는 방법
      • 주어진 여러 데이터 분포를 대표할 수 있는 새로운 속성/특징을 활용하는 기법
      • 선택한 속성을 하나 이상의 새 속성으로 대체하여 데이터를 변경 처리

Subparagraph 2. 데이터 변환 기술 - 정규화 기법 상세

  • 특히 정규화 기법의 경우는 아래와 같이 세 가지 기법이 주로활용된다.
  1. 최소-최대 정규화(Min-Max Normalization)

    • 최소-최대 정규화는 데이터를 정규화하는 가장 일반적인 기법

    • 모든 데이터에 대해 각각의 최솟값 0, 최댓값 1로, 그리고 다른 값들은 0과 1사이의 값으로 변환하는 기법

      어떤 특성의 최솟값이 20이고 최댓값이 40인 경우, 30이 중간이므로 0.5로 변환

    • 최소-최대 정규화의 단점은 이상값에 너무 많은 영향을 받음

  2. Z-스코어 정규화(Z-Score Normalization)

    • Z-스코어 정규화는 이상값 문제를 피하는 데이터 정규화 전략
    • 데이터들의 평균과 표준편차를 구하고, 평균 대비 몇 표준편차만큼 데이터가 떨어져 있는지를 점수화하는 기법
  3. 소수 스케일링(Decimal Scaling)

    • 특성값의 소수점을 이동하여 데이터 크기를 조정하는 정규화 기법
  • 수집된 데이터는 데이터 변환 기술을 통해 목적에 맞도록 변환된 후 정해진 저장공간에 저장한다.