Article 5. 데이터 품질 검증 1315

6 minute read

Section 1. 데이터 수집 및 전환

Paragraph 1. 데이터 품질 특성

데이터의 유효성 여부에 대한 검증 기준은 데이터 품질 특성에 기반하여 정의할 수 있으며, 데이터 품질 특성은 크게 유효성과 활용성으로 구분된다.

Subparagraph 1. 데이터 유효성

데이터 유효성은 정확성과 일관성으로 데이터 품질 특성을 정의한다.

  1. 데이터 정확성
    1. 정확성
      • 실세계에 존재하는 객체(사건, 사물, 개념 등)의 값이 오류 없이 저장되어 있는 특성
    2. 사실성
      • 데이터가 실세계의 사실과 같은 값을 가지고 있는 특성
    3. 적합성
      • 데이터가 정해진 유효 범위를 충족하고 있는 특성
    4. 필수성
      • 필수 항목에 데이터의 누락이 발생하지 않는 특성
    5. 연관성
      • 연관 관계를 가지는 데이터 항목 간에 논리상의 오류가 없는 특성
  2. 데이터 일관성
    1. 정합성
      • 정보시스템 내의 동일한 데이터 간에 불일치가 발생하지 않는 특성
    2. 일치성
      • 기능, 의미, 성격이 동일한 뎅터가 상호 동일한 용어와 형태로 정의되어 있는 특성
    3. 무결성
      • 데이터 처리의 선후 관계가 명확하게 준수되고 있는 특성

Subparagraph 2. 데이터 활용성

데이터 활용성은 유용성, 접근성, 적시성, 보안성으로 데이터 품질 특성을 정의한다.

  1. 데이터 유용성
    1. 충분성
      • 제공 데이터가 사용자의 요구사항을 충분히 충족시킬 수 있는 특성
    2. 유연성
      • 데이터가 사용자의 다양한 요구사항을 수용할 수 있는 유연한 구조로 되어 있는 특성
    3. 사용성
      • 공급되는 데이터가 현장에서 유용하게 사용될 수 있는 특성
    4. 추적성
      • 데이터의 변경 내역이 관리되고 있는 특성
  2. 데이터 접근성
    1. 접근성
      • 사용자가 원하는 데이터를 손쉽게 이용할 수 있으며, 사용의 용이성 관점과 검색의 용이성 관점에서 데이터의 접근이 제공되는 특성
  3. 데이터 적시성
    1. 적시성
      • 응답 시간과 같은 비기능적 요구사항 그리고 데이터의 최신성 유지와 같은 품질 요건에 잘 대처되고 있는 특성
  4. 데이터 보안성
    1. 보호성
      • 훼손, 변조, 유출 등의 다양한 형태의 위협으로부터 데이터를 안전하게 보호할 수 있는 특성
    2. 책임성
      • 사용자 접근 권한과 책임을 명확히 부여하는 특성
    3. 안정성
      • 시스템의 에러나 장애를 사전에 차단하고, 에러나 장애가 발생했을 때 중단 및 지연을 최소화할 수 있는 특성

Paragraph 2. 데이터 변환 후 품질 검증 프로세스

Subparagraph 1. 수집 데이터 분석

Clause 1. 수집 데이터 분석 프로세스

빅데이터 수집 ➡ 메타데이터 수집 ➡ 메타데이터 분석 ➡ 데이터 속성 분석

데이터 수집 후 데이터 분석 절차는 메타데이터 수집, 메타데이터 분석, 데이터 속성 분석 절차에 따라 진행한다.

  1. 메타데이터 수집
    • 메타데이터 수집(테이블 정의서, 컬럼 정의서, 도메인 정의서, 데이터 사전, ERD(ER-Diagram), 관계 정의서를 통해 수집)
    • 각 테이블의 정보와 컬럼명, 데이터 타입 및 길이, 초기값 등을 기반으로 테이블 및 컬럼 목록 명세화
    • 관계가 있는 테이블과 컬럼 목록, 관계의 기수성, 제약성 등을 명시하여 테이블 관계목록 명세화
  2. 수집된 메타데이터 분석
    • 사전에 취합된 테이블, 컬럼, 관계 목록과 추출된 운영 시스템의 테이블, 컬럼, 관계목록을 대조하여 불일치 사항 분석
    • 분석 대상 간 조인을 수행하여 불일치 내역 추출
    • 메타데이터 분석을 통해 불일치 정보 정리
  3. 메타데이터를 통한 데이터속성(유효성) 분석
    • 누락 값, 값의 허용 범위, 허용 값 목록, 문자열 패턴, 날짜 유형, 기타 특수 도메인(특정 번호 유형) 정보, 유일 값, 구조 등을 분석

Clause 2. 메타데이터를 통한 데이터 속성(유효성) 분석 방안

  1. 누락 값 분석
    • NULL 값의 분포를 확인하여 누락 값 분석
    • 공백 값(‘‘)의 분포를 통해 누락 값 분석
    • 숫자 ‘0’등의 분포를 통해 누락 값 분석
  2. 값의 허용 범위 분석
    • 컬럼의 속성값이 가져야 할 범위 내에 속성값이 있는지 여부가 아닌, 해당 속성의 도메인 유형에 따라 그 범위 결정
    • 측량 단위에 따라 값의 허용 범위 판단
    • 자료형의 크기에 따라 값의 허용 범위 판단
    • 실수형 자료는 자릿수와 소수점으로 값의 허용 범위 판단
  3. 허용 값 목록 분석
    • 해당 컬럼의 허용 값 목록이나 집합에 포함되지 않는 값을 발견하는 절차
    • 분석 대상 컬럼의 개별 값과 발생 빈도를 조사하여 허용 값 목록 분석
    • 값의 유무나 값의 여부를 나타내는 컬럼을 조사하여 허용 값 목록 분석
    • 값이 명확히 정의되어 있는 유횻값의 컬럼을 조사하여 허용 값 목록 분석
    • 표준화되어 있지 않은 코드성 컬럼을 조사하여 허용 값 목록 분석
  4. 문자열 패턴 분석
    • 컬럼 속성값의 특성을 문자열로 도식화하여 값의 특성이 문자열로 반복되고 변형되는 대표적인 모형을 미리 정형화하여 해당 컬럼의 특성을 파악하기 쉽게해 놓은 데이터 표현 방법
  5. 날짜 유형 분석
    • DBMS 또는 시스템에서 제공하는 DATETIME 유형과 문자형 날짜 유형을 활용하여 날짜 유형 분석
  6. 유일 값 분석
    • 없무적 의미에서 유일해야 하는 컬럼에 중복이 발생되었는지를 확인하는 절차로 테이블 식별자로 활용되는 컬럼 속성 값들에 대해서 유일 값 분석
  7. 구조 분석
    • 잘못된 데이터 구조로 인해 데이터값에서 일관되지 못하거나, 부정확한 값이 발견되는 현상을 파악하는 절차
    • 구조 결함을 발견하기 위해 관계 분석, 참조 무결성 분석, 구조 무결성 분석기법 등을 활용하여 구조 분석

Subparagraph 2. 데이터 유효성 여부를 검증할 수 있는 규칙 설정 기능 개발

빅데이터 수집 시스템에서 수행되는 유효성 검증은 일반적으로 정형 데이터에 대해서 수행한다

Subparagraph 3. 정규 표현식을 활용한 검증 수행

  • 단순 값의 유무나 중복 여부 검증 외에도 데이터 양식이나 복잡한 규칙을 적용하기 위해 정규 표현식을 통해 유효성 검증을 할 수 있다.
표현기호 설명
\ 특수 문자 표기
\t
\s 스페이스
\d 숫자
| OR. | 기호 사이의 둘 중 어느 문자라도 존재하는 경우 참
^ 시작 문자열
$ 종료 문자열
() 그룹핑하여 묶음 처리
[] 괄호에 있는 문자열 중 1개와 매칭
* 0개 이상의 문자열 매칭
+ 1개 이상의 문자열 매칭
{n} n개 이상의 문자열 매칭
  • 데이터 유혀성 검증 사례는 다음과 같다.

    예) \d{3}-\d{3,4}-\d{4}$ ➡ (전화번호) 3개의 영역으로 구성되며, 각 영역은 하이픈 -으로 구분되고, 첫 번째 자리는 3자리 숫자, 두 번째는 3~4자리 숫자, 마지막 4자리 숫자

Paragraph 3. 품질 검증 방안

Subparagraph 1. 빅데이터 수집 시스템의 요구사항 관현 자료 수집

빅데이터 수집 시스템의 요구사항 중 수집 방식, 수집 모델, 기능, 제약 사항, 수집 된 데이터의 유형 등의 자료를 수집하여 수집 단계에서 품질 관리를 해야 하는 요건을 도출한다.

Subparagraph 2. 수집된 빅데이터의 특성을 고려한 품질 검증 기준 정의

빅데이터 수집 시스템의 요구사항을 확인하여 수집 데이터의 복잡성, 완전성, 유용성 등에 대한 품질 검증 기준을 정의한다.

Clause 1. 수집 데이터의 복잡성 기준 정의

빅데이터 수집 시스템에서 수집하는 데이터의 구조, 형식, 자료, 계층 측면에서 복잡성 기준을 정의한다.

⬇품질 검증 기준

  1. 구조

    • 빅데이터를 사용 가능한 구조로 얼마나 쉽게 변경할 수 있는지 여부
  2. 형식

    • 수집된 데이터가 자료 형식(XLS, XML, JSON 등)을 준수하는지 여부
    • 데이터에 몇 개의 다른 형태가 포함되는지 여부
    • 데이터의 변수들을 사용 가능한 형식으로 쉽게 변환할 수 있는지 여부
  3. 자료

    • 데이터 형식에 다른 기준이 얼마나 사용되었는지 여부
    • 통일되지 않는 비표준 코드가 사용되었는지 여부
    • 다른 코드 형식이 데이터에 사용되었는지 여부
  4. 계층

    • 레코드 혹은 변수 사이의 상하 구조적인 형식이 존재하는지 여부

Clause 2. 수집 데이터의 완전성 기준 정의

수집된 빅데이터 질이 충분하고 완전한지에 대한 품질 관리 기준을 정의한다.

  1. 설명 유무
    • 수집 데이터의 메타데이터 등 설명이 누락되거나 충분하지 않을 경우 자료 활용성에 있어 어떤 문제점 및 결함이 존재하는지 여부
  2. 개체/변수
    • 개체 단위가 명시되었는지 여부
    • 변수가 명확하게 정의되었는지 여부
  3. 메타데이터
    • 메타데이터의 완전성 및 명확성 여부
    • 자료 활용에 있어 결함이 존재하는지 여부

Clause 3. 수집 데이터의 유용성 기준 정의

수집된 빅데이터 처리 용이성, 하드웨어 및 소프트웨어 제약 사항 관련 품질 관리 기준을 정의한다.

  1. 처리 용이성
    • 데이터 처리 및 분석을 위해 새로운 기술을 습득해야 하는지 여부
    • 수집 데이터의 정제 및 사전처리하기 위해 어느 정도의 자원이 소요되는지 여부
  2. 자료 크기
    • 데이터의 크기
    • 자료 전송 시 어떠한 추가 조치가 필요한지 여부
  3. 제약 사항
    • 수집 데이터를 저장하는 데 하드웨어 및 소프트웨어 레벨의 요구사항
    • 특정 IT 인프라 구축 여부

Clause 4. 수집 데이터의 시간적 요소 및 일관성 기준 정의

수집된 빅데이터의 시간적 요소 및 일관성 관련 품질 관리 기준을 정의한다.

⬇시간적 요소 및 일관성 관련 품질 관리 기준

  1. 시간적인 요소
    • 데이터 전달과 수집 사이의 소요 시간
    • 자료가 수집된 시점/자료 수집 기간
    • 자료 수집 및 제공이 주기적으로 가능한지 여부
    • 수집 방법의 변화가 과거 자료를 사용하는 데 제약이 될 수 있는지 여부
  2. 일관석
    • 수집된 빅데이터와 원천소스가 연결되지 않는 비율 정도
    • 관심 사항과 연관된 변수들에 대한 평가
    • 수집된 빅데이터의 이상 값, 오류 값 등이 사용하는 데 있어 결과에 영향을 미칠 수 있는 중요한 오차를 표현하는지 여부
  3. 타당성
    • 수집된 빅데이터의 메타데이터를 분석한 방법이 안정성을 평가할 수 있는지 여부
    • 수집된 빅데이터의 이상 값, 오류 값 등이 분석 결과에 영향을 미칠 수 있는 중요한 오차로 작용하는지 여부
  4. 정확성
    • 포함 오차의 수준
    • 파일 내에 중복된 자료 존재 여부
    • 자료의 값들이 허용 범위 내에 존재하는지 여부
    • 빅데이터 출처 기준으로 너무 많거나, 너무 작게 기술되거나 누락된 영역이 있는지 여부
    • 측정 도구의 타당성 및 관측의 정확성 여부

Subparagraph 3. 데이터 변환 후 빅데이터 품질 검증 기준에 따라 검증 수행

  • 수집된 데이터의 변환 후 빅데이터 품질 검증 기준에 따라 품질 관리 시스템을 활용하여 품질 검증을 수행한다.
  • 빅데이터 품질 검증은 오루 패턴 분류, 지표별 품질 현황 분석, 데이터 품질 Scoring 등의 기능을 통해 수행한다.
  • 품질 검증 후 잘못된 데이터는 문제점을 개선하여 다시 변환하여 저장한다.