Article6. 비정형 데이터 3226
Section 2. 고급 분석기법
Paragraph 1. 비정형 데이터 분석의 개념
비정형 데이터 안에서 체계적인 통계적 규칙이나 패턴을 탐색하고 이를 의미있는 정보로 변환함으로써 기업의 의사결정에 적용하는 분석기법이다.
Paragraph 2. 비정형 데이터 분석기법
대표적인 비정형 데이터 분석기법으로 사회 연결망 분석, 오피니언 마이닝, 텍스트 마이닝, 웹 마이닝, 감성 분석이 있다.
기법 | 설명 |
---|---|
사회 연결망 분석 (SNA) |
• 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석기법 |
감성 분석 (Sentiment Analysis) |
• 어떤 주제에 대한 주관적인 인상, 감정, 태도, 개인의 의견들을 텍스트로부터 뽑아내는 분석 • 제품에 대한 평판을 알아내고자 할 때 사용 • 문장의 긍정/부정에 대한 평가는 측정 주체에 따라 달라질 수 있음 • 문장에서 긍정적/부정적인 단어의 발생 빈도를 파악 |
오피니언 마이닝 (Opinion Mining) |
• 주관적인 의견이 포함된 데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 분석하는 기법 • 긍정, 부정, 중립으로 선호도를 판별 |
텍스트 마이닝 (Text Mining) |
• 텍스트 형태로 이루어진 비정형 데이터들을 자연어처리 방식을 이용해 정보를 추출하는 기법 • 비정형화된 문서에서 정보를 습득 가능 |
웹 마이닝 (Web Mining) |
• 웹에서 발생하는 고객의 행위 분석과 특성 데이터를 추출, 정제하여 의사결정에 활용하기 위한 기법 |
Paragraph 3. 텍스트 마이닝
Subparagraph 1. 텍스트 마이닝의 개념
텍스트 마이닝은 텍스트 형태로 이루어진 비정형 데이터들을 자연어처리 방식을 이용해 정보를 추출하는 기법이다.
사람들이 말하는 언어를 이해할 수 있는 자연어처리
기술에 기반한다.
Subparagraph 2. 텍스트 마이닝 절차
단계 | 절차 | 설명 |
---|---|---|
1 | 텍스트 수집 | • 데이터베이스, 텍스트 기반 문서 등이 수집 대상 • 문서 내 표현된 단어, 구, 절에 해당하는 내용을 가공할 수 있는 데이터로 전처리 |
2 | 의미 추출 | • 복잡한 의미정보의 표현을 단순화 • 도메인에 적합한 정보를 문서의 의미 데이터로 저장 |
3 | 패턴 분석 | • 의미 데이터를 기반으로 문서를 자동으로 군집화 및 분류 |
4 | 정보 생성 | • 시각화 도구를 통해 효과적으로 정보를 표현 |
Subparagraph 3. 텍스트 마이닝의 기능
텍스트 마이닝의 기능으로 정보 추출, 문서 요약, 문서 분류, 문서 군집화 등이 있다.
기능 | 설명 |
---|---|
정보 추출 (Extraction) |
• 일반적인 텍스트 문서로부터 사용자가 원하는 정보를 추출하는 작업 • 원하는 정보를 문장의 형식이나 사용자가 이전에 미리 정의한 질의 포맷에 맞추어서 추출 |
문서 요약 (Summarization) |
• 정보 추출에서 더 나아가 문서에서 다룬 중요 내용을 글로 요약하는 기법 |
문서 분류 (Classification) |
• 키워드에 따라 문서를 분류하는 기법으로서 주어진 키워드 집합에 따라 해당 카테고리로 분류 |
문서 군집화 (Clustering) |
• 문서를 분석해 동일 내용의 문서들을 묶는 기법 |
Paragraph 4. 오피니언 마이닝
Subparagraph 1. 오피니언 마이닝(Opinion Mining)의 개념
- 오피니언 마이닝은 주관적인 의견이 포함된 데이터에서 사용자가 게재한 의견과 감정을 나타내는 패턴을 분석하는 기법이다.
- 사람들이 특정 제품 및 서비스를 좋아하거나 싫어하는 이유를 분석하여 여론이 실시간으로 어떻게 변하는지 확인한다.
Subparagraph 2. 오피니언 마이닝 절차
오피니언 마이닝의 절차로는 특징 추출, 문장 인식, 요약 및 전달 단계를 거친다.
단계 | 절차 | 설명 |
---|---|---|
1 | 특징 추출 | • 긍정 및 부정을 표현하는 단어 정보 추출 |
2 | 문장 인식 | • 세부 평가 요소와 오피니언으로 구성된 문장을 인식 • 규칙기반 방법, 통계기반 방법을 활용 |
3 | 요약 및 전달 | • 긍정, 부정 표현의 통계, 주요 문장을 추출하여 요약 생성 • 오피니언 정보를 요약하고 사용자에게 전달 |
Paragraph 5. 웹 마이닝
Subparagraph 1. 웹 마이닝(Web Mining)의 개념
- 웹 마이닝은 데이터 마이닝 기법을 활용하여 웹상의 문서들과 서비스들로부터 정보를 자동으로 추출, 발견하는 기법이다.
- 정보 단위인 ‘노드’와 연결점인 ‘링크’를 활용한다.
Subparagraph 2. 웹 마이닝의 유형
웹 마이닝의 유형으로는 웹 내용 마이닝, 웹 사용 마이닝, 웹 구조 마이닝 등이 있다.
유형 | 설명 |
---|---|
웹 내용 마이닝 (Web Contents Mining) |
• 웹 사이트를 구성하는 페이지의 내용 중에서 유용한 정보를 추출 예) 텍스트, 이미지, 사운드 등 |
웹 사용 마이닝 (Web Usage Mining) |
• 웹 로그를 통해 사용자의 행위 패턴을 분석하여 의미 있는 정보 추출 예) 사용자 프로파일, 페이지 접근패턴 등 |
웹 구조 마이닝 (Web Structure Mining) |
• 웹 사이트의 구조적인 요약 정보를 찾기 위한 기법 • 하이퍼링크를 통한 그래프의 구조적인 정보 이용 예) 웹 페이지, 하이퍼링크 등 |
Paragraph 6. 사회 연결망 분석
Subparagraph 1. 사용 연결망 분석(SNA; Social Network Analysis)의 개념
SNA는 개인과 집단 간의 관계를 노드와 링크로 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석기법이다.
Subparagraph 2. 사회 연결망 분석 절차
사회 연결망 분석의 절차로는 데이터 수집, 데이터 분석, 데이터 시각화 단계를 거친다.
단계 | 절차 | 설명 |
---|---|---|
1 | 데이터 수집 | • 소셜 네트워크 서비스에서 데이터를 수집 • 웹 크롤러, NodeXL 등을 활용 |
2 | 데이터 분석 | • 수집된 데이터를 바탕으로 분석 수행 • R, Python, NodeXL 등을 활용 |
3 | 데이터 시각화 | • 분석을 마친 데이터를 파악하기 위한 시각화 수행 • 분석 방향과 필요 정보에 따라 최종 시각화 시행 |
Subparagraph 3. 사회 연결망 분석 주요 속성
사회 연결망 분석 주요 속성으로는 응집력, 구조적 등위성, 명성, 범위 중계 등이 있다.
속성 | 설명 |
---|---|
응집력(Cohension) | 행위자들 간 강한 사회화 관계의 존재 |
구조적 등위성(Equivalence) | 한 네트워크의 구조적 지위와 그 위치가 주는 역할이 동일한 사람들 간의 관계 |
명성(Prominence) | 네트워크에서 누가 권력을 가지고 있는지 확인 |
범위(Range) | 행위자의 네트워크 규모 |
중계(Brokerage) | 다른 네트워크와 연결해주는 정도 |
Subparagraph 4. 사회 연결망 분석 측정지표
측정지표 | 설명 |
---|---|
연결 정도 (Degree) |
• 노드 간의 총 연결 관계 개수를 의미 • 한 노드가 몇 개의 노드와 연결되어 있는지의 정도 |
포괄성 (Inclusiveness) |
• 네트워크 내에서 서로 연결된 노드의 개수 • 전체 네트워크에서 연결되어 있지 않은 노드들을 제거하고 남은 노드의 개수 |
밀도 (Density) |
• 네트워크 내에서 노드 간의 전반적인 연결 정도 수준을 나타내는 지표 • 연결망 내 전체 구성원이 서로 간에 얼마나 많은 관계를 맺고 있는지를 표현 |
연결 정도 중심성 (Degree Centrality) |
• 특정 노드가 연결망 내에서 연결된 다른 노드들의 합 • 노드가 얼마나 많은 노드와 관계를 맺고 있는지를 파악 |
근접 중심성 (Closeness Centrality) |
• 각 노드 간의 거리를 바탕으로 중심성을 측정하는 방식 • 직접 연결되어 있는 모든 노드 간의 거리를 바탕으로 중심성을 측정 |
매개 중심성 (Betweenness Centrality) |
• 네트워크 내에서 특정 노드가 다른 노드들 사이에 위치하는 정도를 나타내는 지표 • 네트워크 내에서 어디에 위치하는지를 파악함으로써 해당 노드의 영향력을 파악 |