Article 3. 비정형 데이터 탐색 2223
Section 2. 고급 데이터 탐색
Paragraph 1. 비정형 데이터(Unstructured Data)의 개념
일정한 규격이나 형태를 지닌 숫자 데이터와 달리 이미지나 영상, 텍스트처럼 형태와 구조가 다른 구조화 되지 않은 데이터이다.
Paragraph 2. 비정형 데이터의 유형
비정형 데이터는 불규칙 정도에 따라 반정형 데이터로 구분하기도 한다.
-
비정형 데이터
데이터 내용 텍스트 • 단어들의 빈도를 표현하는 방법을 이용해 텍스트 덩어리를 정형 데이터로 변환한 뒤 텍스트 분석을 수행 이미지 • 이미지를 한 픽셀마다 수치로 변환하는 과정을 거쳐 이미지 분석을 수행
• 최근에는 딥러닝 기법의 하나인 CNN이 주로 쓰임 -
반정형 데이터
데이터 내용 XML • 웹페이지를 만드는 HTML을 개선하여 만든 마크업 언어
• SGML(Standard Generalized Markup Language) 문서 형식을 따름JSON • JavaScript Object Notation의 약자
• 웹상에서 자료를 주고받을 때 사람이 읽을 수 있는 데이터 포맷
• 자바스크립트 구문 형식의 언어 독립형 데이터 포맷HTML • 링크, 인용 등을 이용해 구조적 문서를 만들 수 있는 방법
• 웹페이지를 위해 고안된 언어
Paragraph 3. 비정형 데이터의 탐색 방법
비정형 데이터를 탐색하기 위해서는 각 데이터의 특징에 맞게 탐색한다.
탐색 방법 | 내용 |
---|---|
텍스트 탐색 방법 | 소셜 데이터의 텍스트와 같은 스크립트 파일 형태일 경우 데이터를 파싱한 후 탐색 |
동영상, 이미지 탐색 방법 | 이진 파일 형태의 데이터일 때, 데이터의 종류별로 응용소프트웨어를 이용하여 탐색 |
XML, JSON, HTML 탐색 방법 | XML, JSON, HTML 각각의 파서(Parser)를 이용하여 데이터를 파싱후 탐색 |
Paragraph 4. 비정형 데이터 탐색 플랫폼 구성 예시
비정형 데이터는 다양한 오픈 소스를 활용하여 플랫폼을 구성한 후 탐색할 수 있다.
구성요소 | 설명 |
---|---|
HDFS | 마스터/슬레이브 구조를 가지는 분산형 파일 시스템 |
맵리듀스 | 맵 함수에서 데이터를 처리하고, 리듀스 함수에서 원하는 결과를 계산하는 데이터 탐색 엔지 |
주키퍼 | 분산 환경에서 노드 간의 정보를 공유, 락, 이벤트 등 보조 기능을 제공하는 프레임워크 |
Avro | 이기종 간 데이터 타입을 교환할 수 있는 체계를 제공하는 기술 |
Hive | SQL과 유사한 구조를 가지고, 데이터를 요약하고 쿼리를 수행하여 분석할 수 있는 데이터 웨어하우징 솔루션 |
Pig | 대규모 데이터 세트에 대한 분석을 위한 쿼리 인터페이스 |
HCatalog | 하둡 데이터용 테이블 및 스토리지 관리 서비스 |