Article 4. 데이터 비식별화 1314
Section 1. 데이터 수집 및 전환
Paragraph 1. 데이터 보안 관리
Subparagraph 1. 수집 데이터 보안 관리
정형, 반정형, 비정형 데이터 등의 데이터를 수집, 저장, 처리, 분석 시 개인정보 포함 여부, 데이터 연계 시 보안, 실제 분석 진행 및 완료 후 보안을 고려해야 한다.
- 개인정보 보안 관점
- SNS 등 비정형 데이터의 외부 데이터 수집 시에 개인정보가 데이터에 포함되어 있을 경우에는 삭제 또는 필요 시 비식별 조치 필요
- 데이터 연계 보안 관점
- 데이터 분석 시 여러 다양한 데이터와 연계 처리 시의 보안 취약점 제거 필요
- 빅데이터 보안 관점
- 빅데이터의 수집, 저장, 분석 단계별 진행 전과 진행 후의 데이터 흐름에 대한 보안을 고려
- 빅데이터 자체의 암호화를 통하여 데이터 유출 시에 무결성 유지 필요
Subparagraph 2. 빅데이터 수명 주기별 보안 관리
빅데이터의 수집, 저장, 분석 단계 별 보안 관리를 고려해야 한다.
Clause 1. 빅데이터 수집 보안 관리
빅데이터 수집 시 데이터 수집 기술의 취약점, 수집 서버의 보안 및 개인 정보, 기업의 기밀 정보 등에 대한 관리가 필요하다.
- 데이터 수집 기술 취약성
- 데이터를 수집하는 기술인 크롤링, Open API, FTP 등 오픈 소스로 개발된 수집기의 보안 설정, 사용자 인증, 계정 관리 등의 취약점 검토 필요
- 수집기를 활용한 데이터 수집 시 데이터가 유실되지 않도록 안정성 고려
- 수집 서버 및 네트워크 보안
- 데이터 수집 시 수집 서버의 DMZ, 방화벽, 접근 제어 등 네트워크 보안 고려 필요
- 개인정보 및 기밀 정보 유출 방지
- 데이터 수집, 전송 시 암호화 처리 및 개인정보 활용 목적, 보유기간 등을 고려하여 보안 강화
- 수집된 데이터에 개인정보가 포함되어 있는 경우에는 데이터를 파기하거나 비식별 조치 고려
Clause 2. 빅데이터 저장 보안 관리
빅데이터 저장과 처리 시 데이터가 빅데이터 플랫폼에서 외부에 유출되지 않도록 안정성을 확보한다.
- 데이터 저장소 취약성
- HDFS의 비활성화 데이터가 암호화 대상인지 고려함
- 사용자 보안 인증 기능 강화 및 데이터 접근 제어 등의 강화 필요
- 빅데이터 보안 등급 분류
- 빅데이터를 보안 수준에 따라 기밀 수준(Confidential), 민감 수준(Sensitive), 공개 수준(Public) 등의 보안 등급을 설정하여 개인정보, 기업 비밀 정도 등 비공개 대상 관리
- 보안 모니터링
- 빅데이터 플랫폼에 구성된 시스템의 관리자 권한 설정, 사용자 계정 관리, 보안과 관련 사항을 주기적으로 모니터링 및 관리
Clause 3. 빅데이터 분석 보안 관리
- 빅데이터 분석 시 고객의 개인정보, 기밀 정보 등을 다룰 경우 빅데이터 분석가의 윤리 의식이 중요하다
- 분석 목적에 따라 데이터 분석가의 접근 권한, 접근 통제 등을 관리하여야 한다.
-
내부 사용자
빅데이터를 다루는 빅데이터 분석가를 포함하여 내부 직원의 실수, 고의에 의한 외장 하드, USB 메모리 등의 저장 매체, 이메일, 메신저 등을 통한 데이터 유출 방지
-
외부 침입자
외부 해커가 침입하여 불법으로 데이터를 유출하거나, 우너격지에서 내부 시스템에 접속하여 데이터 유출하는 행위 차단
-
보안 로그
빅데이터 시스템의 권한 통제, 사용 접근에 따라 접근 기록 등의 사용자 로그 관리
Subparagraph 3. 빅데이터 보안 대응 방안
빅데이터의 보안을 유지하기 위해 빅데이터 개인정보 처리, 사용자 인증, 접근 제어, 보안 모니터링 및 보안 인프라 등 빅데이터 수명 주기 전반에 걸쳐서 보안 적용 방안을 고려한다.
구분 | 기능 요건 | 수집 | 저장 | 분석 | 활용 |
---|---|---|---|---|---|
빅데이터 개인정보 | 수집 동의 | 적용 | |||
암호화 | 적용 | 적용 | 적용 | ||
비식별화 | 적용 | 적용 | 적용 | 적용 | |
사용자 인증 | 적용 | 적용 | 적용 | 적용 | |
접근 제어 | 적용 | 적용 | 적용 | ||
암호화 | 적용 | 적용 | 적용 | ||
보안 모니터링 | 적용 | 적용 | 적용 | 적용 | |
보안 인프라 | 방화벽, 접근 통제, NAC, DLP 등 보안 장비 |
Paragraph 2. 데이터 비식별화
데이터를 안전하게 활용하기 위해서는 수집된 데이터의 개인정보 일부 또는 전부를 삭제하거나 다른 정보로 대체함으로써 다른 정보와 결합하여도 특정 개인을 식별하기 어렵도록 하는 데이터 비식별화 조치를 해야 한다.
Subparagraph 1. 데이터 비식별화 적용 대상
적용 대상 | 대상 | 설명 |
---|---|---|
그 자체로 개인을 식별 할 수 있는 정보 | 개인을 식별할 수 있는 정보 | 이름, 전화번호, 주소, 생년월일, 사진 등 |
고유식별 정보 | 주민등록번호, 운전면허번호, 외국인 번호, 여권 번호 | |
생체 정보 | 지문, 홍채, DNA 정보 등 | |
기관, 단체 등의 이용자 계정 | 등록번호, 계좌번호, 이메일 주소 등 | |
다른 정보와 함께 결합하여 개인을 알아볼 수 있는 정보 | 개인 특성 | 성별, 생년, 생일, 나이, 국적, 고향, 거주지, 시군구명, 우편번호, 병역 여부, 결혼 여부 |
신체 특성 | 혈액형, 신장, 몸무게, 허리둘레, 혈압, 눈동자 색깔, 신체검사 결과, 장애 유형, 장애 등급, 병명 | |
신용 특성 | 세금 납부액, 신용등급, 기부금, 건장보험료 납부액, 소득분위, 의료급여자 등 | |
경력 특성 | 학교명, 학과명, 학년, 성적, 학력, 직업 | |
전자적 특성 | PC 사양, 비밀번호, 쿠키 정보, 접속 일시 | |
가족 특성 | 배우자, 자녀, 부모, 형제 여부, 가족 정보 | |
위치 특성 | GPS 데이터, RFID 리더 접속 기록, 인터넷 접속, 핸드폰 사용 기록, 사진 등 |
Subparagraph 2. 데이터 비식별화 처리 기법
- 가명처리(Pseudonymisation)
- 설명
- 개인 식별이 가능한 데이터에 대하여 직접 식별할 수 없는 다른 값으로 대체하는 기법
- 그 자체로는 완전 비식별화가 가능하며 데이터의 변형, 변질 수준이 낮음
- 일반화된 대체 값으로 가명처리함으로써 성명을 기준으로 하는 분석에 한계 존재
- 처리대상 식별 정보
- 성명
- 기타 고유 특징(출신학교, 근무처 등)
- 설명
- 총계철(Aggregation)
- 설명
- 개인정보에 대하여 통곗값을 적용하여 특정 개인을 판단할 수 없도록 하는 기법
- 민감한 정보에 대하여비식별화가 가능하며 다양한 통계분석(전제, 부분)용 데이터 세트 작성에 유리함
- 집계 처리된 데이터를 기준으로 정밀한 분석이 어려우며 집계 수량이 적을 경우 데이터 결합 과정에서 개인정보 추출 또는 예측이 가능
- 처리대상 식별 정보
- 개인과 직접 관련된 날짜 정보(생일, 자격 취득일)
- 기타 고유 특징(수입지출, 신체 정보, 진료기록, 병력정보 등의 개인 민감정보)
- 설명
- 데이터값 삭제(Data Reduction)
- 설명
- 개인정보 식별이 가능한 특정 데이터값 삭제 처리 기법
- 민감한 개인 식별 정보에 대하여 완전한 삭제 처리가 가능하여 예측, 추론 등이 어렵도록 함
- 데이터 삭제로 인한 분석의 다양성, 분석 결과의 유효성, 분석 정보의 신뢰성을 저하시킬 수 있음
- 처리대상 식별 정보
- 쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일 등)
- 고유식별정보(주민등록번호, 운전면허정보 등)
- 생체 정보(지문, 홍채, DNA 정보 등)
- 기관·단체 등의 이용자 계정(등록번호, 계좌번호, 이메일 주소 등)
- 설명
- 범주화(Data Suppression)
- 설명
- 단일 식별 정보를 해당 그룹의 대푯값으로 변환(범주화)하거나 구간 값으로 변환(범위화)하여 고유 정보 추적 및 식별 방지 기법
- 범주나 범위는 통계형 데이터 형식이므로 다양한 분석 및 가공이 가능
- 범주, 범위로 표현됨에 따라 정확한 수치에 따른 분석, 특정한 분석 결과 도출이 어려우며, 데이터 범위 구간이 좁혀질 경우 추적, 예측이 가능
- 처리대상 식별 정보
- 쉽게 개인을 식별할 수 있는 정보(주소, 생년월일 등)
- 고유식별 정보(주민등록번호, 운전면허번호 등)
- 기관·단체 등의 이용자 계정(등록번호, 계좌번호)
- 설명
- 데이터 마스킹(Data Masking)
- 설명
- 개인 식별 정보에 대하여 전체 또는 부분적으로 대체 값(공백, ‘*’, 노이즈 등)으로 변환 기법
- 완전 비식별화가 가능하며 원시 데이터의 구조에 대한 변형이 적음
- 과도한 마스킹 적용 시 필요한 정보로 활용하기 어려우며, 마스킹의 수준이 낮을 경우 특정한 값의 추적 예측 가능함
- 처리대상 식별 정보
- 쉽게 개인을 식별할 수 있는 정보(이름, 전화번호, 주소, 생년월일, 사진 등)
- 고유식별정보(주민등록번호, 운전면허번호 등)
- 기관·단체 등의 이용자 계정(등록번호, 계좌번호, 이메일 주소 등)
- 설명
- 데이터의 활용성을 고려하여 적합한 비식별화 처리 기법을 선택하여 적용하는 것이 필요하다.
Subparagraph 3. 데이터 비식별화 처리 기법에 활용되는 세부기술
Clause 1. 가명처리(Pseudonymisation)
- 휴리스틱 익명화(Heuristic Anonymization)
- 식별자에 해당하는 값들을 몇 가지 정해진 규칙을 이용해서 개인정보를 숨기는 방법
- 사람의 판단에 따라 가공하여 자세한 개인정보를 숨기는 방법
- K-익명화(K-anonymity)
- 같은 속성값을 가지는 데이터를 K개 이상으로 유지하여 데이터를 공개하는 방법
- 지정된 속성이 가질 수 있는 값을 K개 이상으로 유지하여 프라이버시 누출 방지
- 암호화(Encryption)
- 정보의 가공에 있어서 일정 규칙의 알고리즘을 적용하여 암호화함으로써 개인정보를 대체하는 방법
- 통상적으로 다시 유용하게 사용하기 위해서 복호화가 가능하도록 암호화/복호화 값(key)을 가지고 있어야 하므로 key의 보안 방안도 함께 필요
- 교환방법(Swapping)
- 추출된 표본 레코드에 대하여 이루어지는 방법
- 미리 정해진 변수(항목)들의 집합에 대하여 데이터베이스의 레코드와 연계하여 교환
Clause 2. 총계처리(Aggregation)
- 총계처리(Aggregation) 기본 방식
- 수집된 정보에 민감한 개인정보가 있을 경우 데이터 집합 또는 부분으로 집계9총합, 평균 등) 처리하여 민감성을 낮추는 방법
- 부분집계(Micro Aggregation)
- 분석 목적에 따라 부분 그룹만 비식별 처리
- 즉, 다른 속성값에 비하여 오차 범위가 큰 항목이나 속성값에 대하여 통곗값(대표적으로 평균)을 활용하여 값을 변환
- 라운딩(Rounding)
- 집계 처리된 값에 대하여 라운딩(올림, 내림) 기준을 적용하여 최종 집계 처리
- 데이터 재배열(Rearrangement)
- 기존 정보 값은 유지하면서 개인정보와 연관이 되지 않도록 해당 데이터를 재배열
- 즉, 개인의 정보가 타인의 정보와 뒤섞임으로써 전체 정보의 손상 없이 개인의 민감정보가 해당 개인과 연결되지 않도록 하는 방법
Clause 3. 데이터값 삭제(Data Reduction)
- 속성값 삭제(Reducing Variables)
- 원시 데이터에서 민감한 속성값 등 개인 식별 항목을 단순 제거하는 방법
- 속성값 부분 삭제(Reducing Partial Variables)
- 민감한 속성값에 대하여 전체를 삭제하는 방식이 아닌 해당 속성의 일부 값을 삭제함으로써 대표성을 가진 값이 보이도록 하는 방법
- 데이터 행 삭제(Reducing Records)
- 타 정보와 비교하여 값이나 속성의 구별이 뚜렷하게 식별되는 정보 전체를 삭제
- 즉, 특정하게 민감한 속성값 하나가 아닌 해당 정보를 가진 개인정보 내용 전체를 제거하는 방법
- 준 식별자 제거를 통한 단순 익명화
- 식별자뿐만 아니라 잠재적으로 개인을 식별할 수 있는 준 식별자를 모두 제거함으로써 프라이버시 침해 위험을 줄이는 방법
Clause 4. 범주화(Data Suppresion)
- 범주화(Data Suppression) 기본 방식
- 은폐화 방법이라고도 하며 명확한 값을 숨기기 위하여 데이터의 평균 또는 범주의 값으로 변환하는 방식
- 랜덤 올림 방법(Random Rounding)
- 개인 식별 정보에 대한 수치 데이터를 임의의 수 기준으로 올림(Round Up) 또는 절사(Round Down)하는 기법
- 범위 방법(Data Range)
- 개인 식별 정보에 대한 수치 데이터를 임의의 수 기준으로 범위로 설정하는 기법으로서 해당 값의 분포(범위(Range)), 구간(Interval))으로 표현
- 세분 정보 제한 방법(Sub0divide Level Controlling)
- 개인정보 중 단일 항목으로 개인 식별이 될 수 있는 항목을 민감(Sensitive) 항목 또는 높은 시각(High Visibility) 항목이라 하는데, 이와 같은 민감한 항목을 상한, 하한 코딩, 구간 재코딩 방법을 이용하여 정보 노출 위험을 줄일 수 있도록 하는 기법
- 제어 올림 방법(Controlled Rounding)
- 랜덤 올림 방법에서 행과 열의 합이 일치하지 않는 단점을 해결하기 위해 행과 열이 맞지 않는 것을 제어하여 일치시키는 기법
Clause 5. 데이터 마스킹(Data Masking)
- 임의 잡음 추가 방법(Adding Random Noise)
- 소득과 같은 민감 개인 식별 항목에 대해 임의의 숫자 등 잡음을 추가(더하거나 곱)하여 식별정보 노출을 방지하는 기법
- 공백(Blank)과 대체(Impute) 방법
- 빅데이터 자료로부터 비식별 대상 데이터를 선택한 후, 선택된 항목을 공백으로 바꾼 후에 대체법을 적용하여 공백 부분을 채우는 기법
Paragraph 3. 개인정보 비식별 조치 가이드라인
개인정보 비식별 조치 가이드라인은 정보의 일부 또는 전부를 삭제·대체하거나, 다른 정보와 쉽게 결합하지 못하도록 하여 특정개인을 알아볼 수 없도록 하는 수행지침이다.
Subparagraph 1. 단계별 조치 기준
Clause 1. 사전검토
개인정보 해당 여부를 검토하고, 개인정보에 해당하지 않는 경우에는 별도 조치 없이 활용한다.
Clause 2. 비식별 조치
-
식별자 조치 기준
-
정보 집합물에 포함된 식별자는 원칙적으로 삭제 조치
예) 성명, 주민번호, 여권번호, 상세주소, 날짜정보, 전화번호
-
-
속성자 조치 기준
-
데이터 이용 목적과 관련이 없는 속성자의 경우 원칙적으로 삭제
예) 성별, 병역 여부, 음주 여부, 혈액형, 출신학교
-
-
비식별 조치 방법
-
여러 비식별 조치 방법을 이용하여 단독 또는 복합적 활용
예) 가명처리, 총계처리, 데이터 삭제/범주화/마스킹
-
Clause 3. 적정성 평가
-
기초 자료 작성
-
적정성 평가가 필요한 기초자료를 작성
예) 데이터 명세, 비식별 조치현황, 이용기관의 관리수준
-
-
평가단 구성
-
개인정보보호 책임자가 3명 이상의 관련 분야 전문가로 구성
예) 법률전문가, 비식별 조치 방법 전문가
-
-
평가 수행
-
여러 프라이버시 보호 모델 활용하여 비식별 수준 적정성 평가
예) K-익명성, I-다양성, T-근접성
-
-
추가 비식별 조치
- 평가결과가 ‘부적정’인 경우, 추가 비식별 조치 실시
-
데이터 활용
- 평가결과가 ‘적정’인 경우, 해당 데이터를 빅데이터 분석에 이용하거나 제3자에게 제공
Clause 4. 사후관리
-
비식별 정보 안전조치
-
비식별 조치된 정보가 유출되는 경우 다른 정보와 결합하여 식별될 우려가 존재하므로 필수적 보호조치 이행
예) 관리적 보호조치, 기술적 보호조치
-
-
재식별 가능성 모니터링
-
비식별 정보를 이용하여 제3자에게 제공하는 경우, 정보의 재식별 가능성을 정기적으로 모니터링 수행
예) 비식별 정보와 결합하여 새로운 정보가 생성된 경우
-