Article 2. 데이터 유형 및 속성 파악
Section 1. 데이터 수집 및 전환
Paragraph 1. 데이터 유형
빅데이터에서 활용되는 데이터의 유형은 구조, 시간, 저장 형태 관점에 따라 분류할 수 있다
- 수집 데이터
- 구조 관점
- 정형 데이터
- 반정형 데이터
- 비정형 데이터
- 시간 관점
- 실시간 데이터
- 비실시간 데이터
- 저장 형태
- 파일 데이터
- 데이터베이스 데이터
- 콘텐츠 데이터
- 스트림 데이터
- 구조 관점
Subparagraph 1. 구조 관점의 데이터 유형
빅데이터 수집 시스템에서 수집 대상이 되는 데이터를 구조 관점(스키마 구조 또는 연산 가능 여부)에서 분류하면 정형 데이터, 비정형 데이터, 반정형 데이터로 나눌 수 있다.
- 정형 데이터(Structured Data)
- 설명
- 정형화된 스키마(형태) 구조 기반의 형태를 가지고 고정된 필드에 저장되며 값과 형식에서 일관성을 가지는 데이터
- 컬럼(Column)과 로우(Row) 구조를 가지며, 설계된 구조 기반 목적에 맞는 정보들을 저장하고 분석하는 데 사용
- 종류
- RDB
- 스프레드 시트
- 설명
- 반정형 데이터(Semi-structured Data)
- 설명
- 스키마(형태) 구조 형태를 가지고 메타데이터를 포함하며, 값과 형식에서 일관성을 가지지 않는 데이터
- XML, HTML과 같은 웹 데이터가 Node 형태의 구조를 가짐
- 종류
- XML
- HTML
- 웹 로그
- 알람
- 시스템 로그
- JSON
- RSS
- 센서 데이터
- 설명
- 비정형 데이터(Unstructured Data)
- 설명
- 스키마 구조 형태를 가지지 않고 고정된 필드에 저장되니 않는 데이터
- 종류
- SNS
- 웹 게시판
- 텍스트/이미지/오디오/비디오
- 설명
Subparagraph 2. 시간 관점의 데이터 유형
빅데이터 수집 시스템에서 수집 대상이 되는 데이터를 시간 관점(활용 주기)에서 분류하면 실시간 데이터, 비실시간 데이터로 나눌 수 있다.
- 실시간 데이터(Realtime Data)
- 설명
- 생성된 이후 수 초~수 분 이내에 처리되어야 의미가 있는 현재 데이터
- 종류
- 센서 데이터
- 시스템 로그
- 네트워크 장비 로그
- 알람
- 보안 장비 로그
- 설명
- 비실시간 데이터(Non-Realtime Data)
- 설명
- 생성된 데이터가 수 시간 또는 수 주 이후에 처리되어야 의막 있는 과거 데이터
- 종류
- 통계
- 웹 로그
- 구매 정보
- 서비스 로그
- 디지털 헬스케어 정보
- 설명
Subparagraph 3. 저장 형태 관점의 데이터 유형
빅데이터 수집 시스템에서 수집 대상이 되는 데이터를 저장 형태 관점에서 분류하면 파일 데이터, 데이터베이스 데이터, 콘텐츠 데이터, 스트림 데이터 등으로 나눌 수 있다.
- 파일 데이터(File)
- 시스템 로그, 서비스 로그, 텍스트 스프레드시트 등과 같이 파일 형식으로 파일 시스템에 저장되는 데이터이며, 파일 크기가 대용량이거나 파일의 개수가 다수인 데이터
- 데이터베이스 데이터(Database)
- RDBMS, NoSQL, 인메모리 데이터베이스 등에 의해서 데이터의 종류나 성격에 따라 데이터베이스의 컬럼 또는 테이블 등에 저장된 데이터
- 콘텐츠 데이터(Content)
- 텍스트, 이미지, 오디오, 비디오 등과 같이 개별적으로 데이터 객체로 구분 될 수 있는 미디어 데이터
- 스트림 데이터(Stream)
- 센서 데이터, HTTP 트랜잭션, 알람 등과 같이 네트워크를 통해서 실시간으로 전송되는 데이터
Paragraph 2. 데이터 속성 파악
Subparagraph 1. 수집 데이터의 특징 및 형태
- 정형 데이터
- 관계형 데이터베이스 시스템의 테이블과 같이 고정된 컬럼에 저장되는 데이터와 파일, 그리고 지정된 행과 열에 의해 데이터의 소성이 구별되는 스프레드시트 형태의 데이터
- 관계형 데이터베이스 시스템의 정형 데이터는 비정형 데이터와 비교할 때 스키마를 지원하는 특징이 존재
- 반정형 데이터
- 정형 데이터는 데이터의 스키마 정보를 관리하는 DBMS와 데이터 내용이 저장되는 데이터 저장소로 구분되지만, 반정형 데이터는 데이터 내부에 정형 데이터의 스키마에 해당되는 메타데이터를 갖고 있으며, 일반적으로 파일 형태로 저장됨
- 비정형 데이터
- 대표적인 비정형 데이터는 언어 분석이 가능한 텍스트 데이터나 이미지, 동영상 같은 멀티미디어 데이터
- 웹에 존재하는 데이터의 경우 HTML 형태로 존재하여 반정형 데이터로 구분할 수 도 있지만, 특정한 겨우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재하므로 명확한 구분은 어려움
Subparagraph 2. 데이터 형태에 따른 분류
-
정성적 데이터(Qualitative Data)
-
형태
언어, 문자 등
-
사례
기업 매출이 증가함 등
-
특징
지정·검색·분석에 많은 비용 소모
-
-
정량적 데이터(Quantitative Data)
-
형태
수치, 도형, 기호 등
-
사례
키, 생일, 주가 등
-
특징
정형화가 된 데이터로 비용 소모가 적용
-
Subparagraph 3. 데이터 속성 파악
데이터의 속성에 따라서 범주형과 수치형으로 구분되며 범주형은 명목형과 순서형, 수치형은 이산형과 연속형으로 구분된다.
Clause 1. 데이터 속성
- 범주형(Categorical)
- 설명
- 조사 대상을 특성에 따라 범주로 구분하여 측정된 변수
- 질적 변수(Qualitative Variable)라고도 불림
- 질적 변수에 대해서는 덧셈 등 수학적 연산결과는 의미가 없으므로 연산의 개념을 적용시킬 수 없음
- 질적 변수가 분석 대상일 때는 보통 원그래프나, 막대그래프를 이용하여 각 범주에 속한 개수나 퍼센트 등을 다룸
- 종류
- 순서형
- 명목형
- 설명
- 수치형(Measure)
- 설명
- 수치형은 몇 개인가를 세어 측정하거나 측정길이, 무게와 같이 양적인 수치로 측정되는 변수임
- 양적 변수(Quantitative Variable)라고도 불림
- 덧셈, 뺄셈 등의 연산이 가능하고 히스토그램, 시계열 그래프 등을 이용하여 표현 가능
- 종류
- 연속형
- 이산형
- 설명
Clause 2. 데이터 속성 상세
나이는 시간이 지남에 따라 계속 늘어나는 연속형 변수이지만, 1년 단위로 측정되면 이산형 변수이다
-
범주형
-
명목형(Nominal)
-
명사형으로 변수나 변수의 크기가 순서와 상관없고, 의미가 없이 이름만 의미를 부여할 수 있는 경우
예) 스마트폰 브랜드(삼성=1, LG=2, 애플=3), 현역 구분(현역=1, 예비역=2)
-
-
순서형(Ordinal)
-
변수가 어떤 기준에 따라 순서에 의미를 부여할 수 있는 경우
예) 병원수준(의원=1, 종합병원=2, 대학병원=3), 화장실 상태(양호=3, 보통=2, 나쁨=1)
-
-
-
수치형
-
이산형(Discrete)
-
변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우
예) 문 갯수, 시험문제 중 틀린 갯수, 자동차 사기전까지 대리점 방문 횟수
-
-
연속형(Continuous)
-
변수가 구간 안의 모든 값을 가질 수 있는 경우
예) 노인들의 키, 양의 정수 구간 안의 모든 값
-
-
Subparagraph 4. 데이터 속성에 대한 측정 척도
- 수치형 변수는 비율 척도로 주로 측정하고, 간혹 등간 척도로 측정한다
- 범주형 변수는 명목 척도, 서열 척도, 등간 척도로 측정한다
-
명목 척도(Nominal Scale)
-
관측 대상을 임의의 범주로 분류한 후 기호나 숫자를 부여하는 방법
-
분류의 수치화이고, 척도 값이 분류의 의미만을 가짐
-
대표적으로 출신 국가 분류, 고객 구분, 직업 구분, 주택보유 여부 등을 나타낼 때 명목 척도 활용
예) 예비역 구분(현역, 예비역), 혈액형(B, O, AB), 지역 번호 등
-
-
서열 척도/순위 척도(Ornial Scale)
-
비계량적인 변수를 관측하기 위한 관측 방법
-
여러 관측 대상을 임의의 기준에 따라 상대적인 비교 및 순위화를 통해 관측하는 방법
-
서열의 순서화로 척도 값이 분류 및 서열 순서를 가짐
예) 맛집 별점, 음료수의 선호도 조사(1위, 2위, 3위), 이용자 등급 등 ➡ 순서만 의미가 있고, 수치의 크기나 차이는 의미가 없음
-
-
등간 척도/간격 척도/거리 척도(Interval Scale)
-
비계량적인 변수를 정량적인 방법으로 측정하기 위하여 사용
-
각각의 대상을 별도로 평가하는 방법
-
비계량적 변수의 경우 수치적으로는 평가하기 어려우므로 상, 중, 하 등으로 평가 기준을 나누어 측정
-
동일 간격화로 크기 간의 차이를 비교할 수 있게 만든 척도
예) 미세먼지 수치, 당뇨 수치
-
보통 비계량적 변수를 등간 척도로 측정한 경우 계량적으로 측정한 데이터로 취급
-
-
비율 척도(Ratio Scale)
-
균등 간격에 절대 영점이 있고, 비율 계산이 가능한 척도
-
가장 전형적인 양적 변수로 쓰임
-
순서뿐만 아니라 그 간격도 의미가 있음
예) 나이, 키, 금액, 거리, 넓이, 소득, 부피 등 ➡ 이 경우 금액의 비율, 무게의 비율이 의미가 있으며, 펴균 금액, 평균 거리 등 평균치 등도 의미가 있음
-