Article 2. 데이터 유형 및 속성 파악

4 minute read

Section 1. 데이터 수집 및 전환

Paragraph 1. 데이터 유형

빅데이터에서 활용되는 데이터의 유형은 구조, 시간, 저장 형태 관점에 따라 분류할 수 있다

  • 수집 데이터
    1. 구조 관점
      1. 정형 데이터
      2. 반정형 데이터
      3. 비정형 데이터
    2. 시간 관점
      1. 실시간 데이터
      2. 비실시간 데이터
    3. 저장 형태
      1. 파일 데이터
      2. 데이터베이스 데이터
      3. 콘텐츠 데이터
      4. 스트림 데이터

Subparagraph 1. 구조 관점의 데이터 유형

빅데이터 수집 시스템에서 수집 대상이 되는 데이터를 구조 관점(스키마 구조 또는 연산 가능 여부)에서 분류하면 정형 데이터, 비정형 데이터, 반정형 데이터로 나눌 수 있다.

  1. 정형 데이터(Structured Data)
    • 설명
      • 정형화된 스키마(형태) 구조 기반의 형태를 가지고 고정된 필드에 저장되며 값과 형식에서 일관성을 가지는 데이터
      • 컬럼(Column)과 로우(Row) 구조를 가지며, 설계된 구조 기반 목적에 맞는 정보들을 저장하고 분석하는 데 사용
    • 종류
      • RDB
      • 스프레드 시트
  2. 반정형 데이터(Semi-structured Data)
    • 설명
      • 스키마(형태) 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식에서 일관성을 가지지 않는 데이터
      • XML, HTML과 같은 웹 데이터가 Node 형태의 구조를 가짐
    • 종류
      • XML
      • HTML
      • 웹 로그
      • 알람
      • 시스템 로그
      • JSON
      • RSS
      • 센서 데이터
  3. 비정형 데이터(Unstructured Data)
    • 설명
      • 스키마 구조 형태를 가지지 않고 고정된 필드에 저장되니 않는 데이터
    • 종류
      • SNS
      • 웹 게시판
      • 텍스트/이미지/오디오/비디오

Subparagraph 2. 시간 관점의 데이터 유형

빅데이터 수집 시스템에서 수집 대상이 되는 데이터를 시간 관점(활용 주기)에서 분류하면 실시간 데이터, 비실시간 데이터로 나눌 수 있다.

  1. 실시간 데이터(Realtime Data)
    • 설명
      • 생성된 이후 수 초~수 분 이내에 처리되어야 의미가 있는 현재 데이터
    • 종류
      • 센서 데이터
      • 시스템 로그
      • 네트워크 장비 로그
      • 알람
      • 보안 장비 로그
  2. 비실시간 데이터(Non-Realtime Data)
    • 설명
      • 생성된 데이터가 수 시간 또는 수 주 이후에 처리되어야 의막 있는 과거 데이터
    • 종류
      • 통계
      • 웹 로그
      • 구매 정보
      • 서비스 로그
      • 디지털 헬스케어 정보

Subparagraph 3. 저장 형태 관점의 데이터 유형

빅데이터 수집 시스템에서 수집 대상이 되는 데이터를 저장 형태 관점에서 분류하면 파일 데이터, 데이터베이스 데이터, 콘텐츠 데이터, 스트림 데이터 등으로 나눌 수 있다.

  1. 파일 데이터(File)
    • 시스템 로그, 서비스 로그, 텍스트 스프레드시트 등과 같이 파일 형식으로 파일 시스템에 저장되는 데이터이며, 파일 크기가 대용량이거나 파일의 개수가 다수인 데이터
  2. 데이터베이스 데이터(Database)
    • RDBMS, NoSQL, 인메모리 데이터베이스 등에 의해서 데이터의 종류나 성격에 따라 데이터베이스의 컬럼 또는 테이블 등에 저장된 데이터
  3. 콘텐츠 데이터(Content)
    • 텍스트, 이미지, 오디오, 비디오 등과 같이 개별적으로 데이터 객체로 구분 될 수 있는 미디어 데이터
  4. 스트림 데이터(Stream)
    • 센서 데이터, HTTP 트랜잭션, 알람 등과 같이 네트워크를 통해서 실시간으로 전송되는 데이터

Paragraph 2. 데이터 속성 파악

Subparagraph 1. 수집 데이터의 특징 및 형태

  1. 정형 데이터
    • 관계형 데이터베이스 시스템의 테이블과 같이 고정된 컬럼에 저장되는 데이터와 파일, 그리고 지정된 행과 열에 의해 데이터의 소성이 구별되는 스프레드시트 형태의 데이터
    • 관계형 데이터베이스 시스템의 정형 데이터는 비정형 데이터와 비교할 때 스키마를 지원하는 특징이 존재
  2. 반정형 데이터
    • 정형 데이터는 데이터의 스키마 정보를 관리하는 DBMS와 데이터 내용이 저장되는 데이터 저장소로 구분되지만, 반정형 데이터는 데이터 내부에 정형 데이터의 스키마에 해당되는 메타데이터를 갖고 있으며, 일반적으로 파일 형태로 저장됨
  3. 비정형 데이터
    • 대표적인 비정형 데이터는 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터
    • 웹에 존재하는 데이터의 경우 HTML 형태로 존재하여 반정형 데이터로 구분할 수 도 있지만, 특정한 겨우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재하므로 명확한 구분은 어려움

Subparagraph 2. 데이터 형태에 따른 분류

  1. 정성적 데이터(Qualitative Data)

    • 형태

      언어, 문자 등

    • 사례

      기업 매출이 증가함 등

    • 특징

      지정·검색·분석에 많은 비용 소모

  2. 정량적 데이터(Quantitative Data)

    • 형태

      수치, 도형, 기호 등

    • 사례

      키, 생일, 주가 등

    • 특징

      정형화가 된 데이터로 비용 소모가 적용

Subparagraph 3. 데이터 속성 파악

데이터의 속성에 따라서 범주형과 수치형으로 구분되며 범주형은 명목형과 순서형, 수치형은 이산형과 연속형으로 구분된다.

Clause 1. 데이터 속성

  1. 범주형(Categorical)
    • 설명
      • 조사 대상을 특성에 따라 범주로 구분하여 측정된 변수
      • 질적 변수(Qualitative Variable)라고도 불림
      • 질적 변수에 대해서는 덧셈 등 수학적 연산결과는 의미가 없으므로 연산의 개념을 적용시킬 수 없음
      • 질적 변수가 분석 대상일 때는 보통 원그래프나, 막대그래프를 이용하여 각 범주에 속한 개수나 퍼센트 등을 다룸
    • 종류
      • 순서형
      • 명목형
  2. 수치형(Measure)
    • 설명
      • 수치형은 몇 개인가를 세어 측정하거나 측정길이, 무게와 같이 양적인 수치로 측정되는 변수임
      • 양적 변수(Quantitative Variable)라고도 불림
      • 덧셈, 뺄셈 등의 연산이 가능하고 히스토그램, 시계열 그래프 등을 이용하여 표현 가능
    • 종류
      • 연속형
      • 이산형

Clause 2. 데이터 속성 상세

나이는 시간이 지남에 따라 계속 늘어나는 연속형 변수이지만, 1년 단위로 측정되면 이산형 변수이다

  1. 범주형

    1. 명목형(Nominal)

      • 명사형으로 변수나 변수의 크기가 순서와 상관없고, 의미가 없이 이름만 의미를 부여할 수 있는 경우

        예) 스마트폰 브랜드(삼성=1, LG=2, 애플=3), 현역 구분(현역=1, 예비역=2)

    2. 순서형(Ordinal)

      • 변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우

        예) 병원수준(의원=1, 종합병원=2, 대학병원=3), 화장실 상태(양호=3, 보통=2, 나쁨=1)

  2. 수치형

    1. 이산형(Discrete)

      • 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우

        예) 문 갯수, 시험문제 중 틀린 갯수, 자동차 사기전까지 대리점 방문 횟수

    2. 연속형(Continuous)

      • 변수가 구간 안의 모든 값을 가질 수 있는 경우

        예) 노인들의 키, 양의 정수 구간 안의 모든 값

Subparagraph 4. 데이터 속성에 대한 측정 척도

  • 수치형 변수는 비율 척도로 주로 측정하고, 간혹 등간 척도로 측정한다
  • 범주형 변수는 명목 척도, 서열 척도, 등간 척도로 측정한다
  1. 명목 척도(Nominal Scale)

    • 관측 대상을 임의의 범주로 분류한 후 기호나 숫자를 부여하는 방법

    • 분류의 수치화이고, 척도 값이 분류의 의미만을 가짐

    • 대표적으로 출신 국가 분류, 고객 구분, 직업 구분, 주택보유 여부 등을 나타낼 때 명목 척도 활용

      예) 예비역 구분(현역, 예비역), 혈액형(B, O, AB), 지역 번호 등

  2. 서열 척도/순위 척도(Ornial Scale)

    • 비계량적인 변수를 관측하기 위한 관측 방법

    • 여러 관측 대상을 임의의 기준에 따라 상대적인 비교 및 순위화를 통해 관측하는 방법

    • 서열의 순서화로 척도 값이 분류 및 서열 순서를 가짐

      예) 맛집 별점, 음료수의 선호도 조사(1위, 2위, 3위), 이용자 등급 등 ➡ 순서만 의미가 있고, 수치의 크기나 차이는 의미가 없음

  3. 등간 척도/간격 척도/거리 척도(Interval Scale)

    • 비계량적인 변수를 정량적인 방법으로 측정하기 위하여 사용

    • 각각의 대상을 별도로 평가하는 방법

    • 비계량적 변수의 경우 수치적으로는 평가하기 어려우므로 상, 중, 하 등으로 평가 기준을 나누어 측정

    • 동일 간격화로 크기 간의 차이를 비교할 수 있게 만든 척도

      예) 미세먼지 수치, 당뇨 수치

    • 보통 비계량적 변수를 등간 척도로 측정한 경우 계량적으로 측정한 데이터로 취급

  4. 비율 척도(Ratio Scale)

    • 균등 간격에 절대 영점이 있고, 비율 계산이 가능한 척도

    • 가장 전형적인 양적 변수로 쓰임

    • 순서뿐만 아니라 그 간격도 의미가 있음

      예) 나이, 키, 금액, 거리, 넓이, 소득, 부피 등 ➡ 이 경우 금액의 비율, 무게의 비율이 의미가 있으며, 펴균 금액, 평균 거리 등 평균치 등도 의미가 있음