Article 1. 빅데이터의 특징 1111

2 minute read

Section 1. 빅데이터 개요 및 활용

Paragraph 1. 빅데이터의 개념

  • 빅데이터는 막대한(수십 테라바이트 이상)의 정형비정형 데이터
  • 데이터로부터 가치를 추출하고 결과를 분석하는 기술의 의미로도 통용됨
  • 데이터로부터 가치를 추출하는 것은 통찰, 지혜를 얻는 과정. DIKW 피라미드로 표현할 수 있다.

DIKW 피라미드

  • 데이터: 객관적 사실로서 다른 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호
  • 정보: 가공, 처리하여 데이터 간의 연관 관계와 함께 의미가 도출된 데이터
  • 지식: 획득된 다양한 정보를 구조화하여 유의미한 정보로 분류하고 일반화시킨 결과물. 정보에 기반해 찾아진 규칙
  • 지혜: 창의적 아이디어, 상화이나 맥락에 맞게 규칙을 적용하는 요소
  • 데이터를 수집, 저장, 관리, 분석하는 기존의 관리 방법으로는 막대한 양의 데이터를 처리하기 어려울 때 빅데이터를 사용한다.

KB킬로➔MB메가➔GB기가➔TB테라➔PB페타➔EB엑사➔ZB제타➔YB요타

Paragraph 2. 빅데이터의 특징

3V의 특징이 있지만 최근에는 5V, 7V로 확장되고 있다.

규모(volume), 다양성(variety), 속도(velocity), 신뢰성(veracity), 가치(value), 정확성(validity), 휘발성(volatility)

  1. 규모(volume)
    • 빅데이터 분석 규모에 관련된 특징
    • 다양한 멀티미디어 데이터등의 디지털 정보량이 크게 증가함
  2. 다양성(variety)
    • 자원 유형관련 특징
    • 정형, 비정형, 반정형 데이터를 포함
  3. 속도(velocity)
    • 수집·분석·활용 속도에 관련된 특징
    • 실시간성 정보의 생성 속도 증가에 따라 처리 속도 가속화 요구
  4. 신뢰성(veracity)
    • 노이즈 및 오류 제거를 통해 활용 데이터에 대한 품질과 신뢰성 제고 요구
  5. 가치(value)
    • 비지니스 혹은 연구에 활용되어 유용한 가치를 끌어낼 수 있는가
    • 데이터의 정확성 및 시간성과 관련됨
  6. 정확성(validity)
    • 규모가 아무리 크더라도 질 높은 데이터를 활용한 정확한 분석 수행이 없다면 의미가 없음
    • 데이터의 타당성과 정확성에 대한 판단은 의사결정의 중요한 요소
  7. 휘발성(volatility)
    • 수집 대상 데이터가 의미가 있는 기간
    • 오래 저장될 수 있고, 오랫동안 사용될 수 있을지에 관한 사항
    • 장기적으로 유용한 가치를 창출해야 함

Paragraph 3. 빅데이터의 유형

빅데이터의 유형은 데이터의 구조적 관점에서 정형, 반정형, 비정형 데이터로 구분된다

  1. 정형

    • 정형화된 스키마 구조, DBMS에 내용이 저장될 수 있는 구조

    • 고정된 필드(속성)에 저장된 데이터

      예) 관계형 데이터 베이스(Oracle, MS-SQL …)

  2. 반정형

    • 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조

    • 고정된 필드에 저장되어 있지만, 메타데이터나 데이터 스키마 정보를 포함하는 데이터

      XML, HTML, JSON …

  3. 비정형

    • 수집 데이터 각각이 데이터 객체로 구분

    • 고정 필드 및 메타데이터(스키마 포함)가 정의되지 않음

    • Crawler, API, RSS 등의 수집 기술을 활용

      텍스트 문서, 이진 파일, 이미지, 동영상 등

Paragraph 4. 데이터 지식 경영

  • 데이터 기반 지식 경영의 핵심 이슈는 암묵지형식지상호작용에 있음

    1. 암묵지

      • 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식

      • 사회적으로 중요하지만 다른 사람에게 공유되기 어려움

      • 상호작용 : 공통화, 내면화

        수영, 태권도

    2. 형식지

      • 문서나 매뉴얼처럼 형상화된 지식

      • 전달과 공유가 용이

      • 상호작용 : 표출화, 연결화

        수험서, 소프트웨어 설치 매뉴얼

  • 상호작용에는 내면화, 공통화, 표출화, 연결화가 있다

    1. 내면화

      행동과 실천교육 등을 통해 형식지가 개인의 암묵지로 체화되는 단계

    2. 공통화

      다른 사람과의 대화 등 상호작용을 통해 개인이 암묵지를 습득하는 단계

    3. 표출화

      형식지 요소 중의 하나이며 개인에게 내재된 경험을 객관적인 데이터인 문서나 매체로 저장하거나 가공, 분석하는 과정

    4. 연결화

      형식지가 상호결합하면서 새로운 형식지를 창출하는 과정