Overview

인터넷의 발달, 모바일기기의 발전, 사물 인터넷 기술의 등장, SNS의 활성화 등으로 하루에도 수많은 데이터가 쌓이고 활용되고 있습니다. 데이터의 양이 급증하여 자연스럽게 빅데이터 시대로 접어들면서 빅데이터를 이용한 새로운 개인 맞춤형 서비스나 마케팅 방법과 같이 데이터 활용이 활발해지고 있는 동시에 개인정보보호의 중요성도 강조되고 있습니다.

우리나라에서도 데이터3법(정보통신망법, 개인정보보호법, 신용정보보호법) 통과로 데이터 활용이 활성화되어 다양한 비즈니스가 창출될 것이라는 기대가 커지고 있으며, 특히 ‘가명정보’ 개념 도입에 따른 데이터 활용에 대한 기대가 큰 상황입니다.

이에 간략하게 개정된 개인정보의 의미와 개인정보 익명화에 대한 이야기를 해보고자 합니다.

개정 개인정보 보호법

개정 개인정보 보호법은 개인정보와 익명정보 외 ‘가명정보’라는 개념을 새로 규정하였습니다. 가명정보의 도입 취지를 ‘새로운 기술 · 제품 · 서비스의 개발 등 산업적 목적을 포함하는 과학적 연구, 통계 작성, 공익적 기록 보존 등의 목적’으로 설명하고 있습니다.

개인정보처리자는 정보주체의 동의 없이도 가명정보를 처리할 수 있으며, 가명정보에 대해서는 개인정보의 파기, 정보주체의 개인정보 열람·정정·삭제 요구권 등에 대한 일부 개인정보보호법 조항들이 적용되지 않습니다.

익명정보의 경우 이전부터 개인정보의 범위에 해당하지 않았으나, 이번 개정 개인정보보호법에서 그 개념을 분명히 하여 시간, 비용, 기술 등을 합리적으로 고려할 때 다른 정보를 사용하여도 더 이상 개인을 알아볼 수 없는 정보를 익명정보로 정의하였습니다. 이러한 익명정보의 경우 개인정보보호법이 적용되지 않는다고 명시하고 있습니다.

private
[참고-1]. 개인 정보, 가명 정보, 익명 정보의 구분



신용정보의 이용 및 보호에 관한 법률

개정 신용정보의 이용 및 보호에 관한 법률(이하, 신용정보법)에서는 ‘가명처리’와 ‘익명처리’의 개념을 도입하였습니다.

‘가명처리’는 ‘추가 정보를 사용하지 아니하고는 특정 개인인 신용정보주체를 알아볼 수 없도록 개인신용정보를 처리하는 것’으로 ‘가명처리한 개인신용정보’를 ‘가명정보’로 정의하고 있으며, ‘익명처리’는 ‘더이상 특정 개인인 신용정보주체를 알아볼 수 없도록 개인신용정보를 처리하는 것’으로 정의하고 있습니다.

개정 신용정보법은 가명정보를 통계작성, 연구, 공익적 기록보존 등을 위하여 정보주체의 동의 없이 활용할 수 있도록 하고 있는데, 이 경우 통계작성에는 시장조사 등 상업적 목적의 통계작성을 포함하며, 연구에는 산업적 연구를 포함합니다.

생명윤리 및 안전에 관한 법률

생명윤리 및 안전에 관한 법률(이하, 생명윤리법)에서는 개인식별정보, 개인정보를 나누어 정의하고 있는데요. ‘개인식별정보’를 연구대상자와 배아ㆍ난자ㆍ정자 또는 인체유래물의 기증자(이하 ‘연구대상자등’이라 한다)의 성명ㆍ주민등록번호 등 개인을 식별할 수 있는 정보로 정의하고 있으며, 개인식별정보, 유전정보, 건강에 관한 정보 등 개인에 관한 정보는 ‘개인정보’로 정의하고 있습니다.

생명윤리법에서는 개인식별정보를 처리하는 개념으로 익명화를 정의하였는데, ‘익명화’란 개인식별정보를 영구적으로 삭제하거나, 개인식별정보의 전부 또는 일부를 해당 기관의 고유식별기호로 대체하는 것을 의미합니다.

private
[참고-2] 해외법과 한국법의 가명정보·익명정보의 개념



익명화 기술

익명화의 기술적 정의는 다른 정보와 쉽게 결합하여도 특정 개인을 알아 볼 수 없는 형태로 만들기 입니다. 이렇게 만들어진 ‘익명 정보’는 개인 정보가 아니기 때문에 자유롭게 활용 가능하게 됩니다. (참고-1 익명 정보 정의 참조)

기업마다 매일매일 대량의 데이터가 누적되고 있습니다. 이렇게 모인 수많은 데이터는 활용하기에 따라 다양한 가치 창출이 가능합니다. 하지만 쌓여있는 데이터를 그대로 사용하기에는 금융 정보, 의료 정보, 정보주체자를 식별할 수 있는 개인 정보 등 직접 활용할 수 없는 정보가 뒤섞여 있습니다.

익명화 처리 기술은 이러한 정보들을 가공하여 활용이 가능하도록 하는 기술입니다.

구글이나 애플, 페이스북 등의 기업들은 자신들의 알고리즘을 기반으로 우리가 생각지도 못한 다채로운 익명화 된 데이터를 쌓고 활용하고 있습니다.

자, 그렇다면 다양한 익명화 처리 기법 중 프라이버시 보호(재식별 가능성 검토 기법)를 위한 k-익명성(k-anonymity), ℓ-다양성(ℓ-diversity), t-근접성(t-closeness)에 대해 알아보겠습니다.

주요 용어

  • 식별자 : 주민번호, 전화번호, 이메일 등 그 자체로 특정한 개인을 알아낼 수 있는(식별) 정보.
  • 준식별자 : 키, 몸무게, 혈액형 등 다른 데이터와 결합을 통해 특정 개인을 간접적으로 추론하는데 사용할 수 있는 속성.
  • 민감속성 : 병명, 잔고, 전과기록 등 개인의 사생활을 드러낼 수 있는 속성.
  • k-익명성을 만족시키는 익명화 알고리즘 : 일반화기반익명화, 공간분할기반익명화(Mondrian), 클러스터링기반익명화(k-member clustering) 등.

아래 서술할 k-익명성(k-anonymity), ℓ-다양성(ℓ-diversity), t-근접성(t-closeness)에 대한 내용은 정부 관계부처 합동으로 작성한 ‘개인정보 비식별 조치 가이드라인’에서 언급하고 있는 내용입니다.

여기에서 특별히 ‘k-익명성’을 주의 깊게 보시기 바랍니다. 우리나라에서는 관계형 데이터에 ‘k-익명성’ 기술을 적용한 데이터의 활용 용도가 높습니다.

k-익명성(k-anonymity)

개인정보 보호를 위한 기본 모델입니다. (관계형 데이터에 대한 추론 식별 방지 기준)

k-익명성은 주어진 데이터 집합에서 같은 값이 적어도 k개 이상 존재하도록 하여 쉽게 다른 정보로 결합할 수 없도록 하는 것입니다.

  • 데이터 집합의 일부를 수정하여 모든 레코드가 자기 자신과 동일한(구별되지 않는) k-1개 이상의 레코드를 가짐
  • 예를 들어, [표-1]의 의료 데이터가 k-4가 되도록 비식별 조치된 [표-3]에서 1~4, 5~8, 9~12 레코드는 서로 구별되지 않음

따라서, 비식별된 데이터 집합에서는 공격자가 정확히 어떤 레코드가 공격 대상인지 알아낼 수 없습니다.

  • 예) [표-1] 공개 의료데이터 : 지역코드 13053 / 나이 28세 / 성별 남 / 질병 전립선염
    • [표-2] 선거인명부 : 이름 김민준 / 지역코드 13053 / 나이 28세 / 성별 남

    → 공개된 데이터 [표-1]과 [표-2]를 통해 “김민준”이 정확히 “전립선염”이라는 질병을 앓고 있음을 추론할 수 있음.

    • [표-3] k-익명성 모델 적용 : 레코드 1~4→ 전립선염 또는 고혈압

→ 이 예제에서 설명하고자 하는 것은 ‘동일한 값을 갖고 있는 사람이 최소 4명 이상이 되게 하여, 식별 가능성을 1/4로 줄어들게 한 것’입니다.

또한 이 예제를 통해 k가 커질수록 개인정보는 보호되지만 데이터로서의 가치는 점차 떨어질 수 있음을 예상할 수 있습니다.

private
[표-1] 공개 의료데이터 사례
private
[표-2] 선거인명부 사례
private
[표-3] k-익명성 모델에 의해 비식별된 의료데이터 사례



ℓ-다양성(ℓ-diversity)

k-익명성의 취약점을 보완한 프라이버시 보호 모델입니다.

k-익명성에 대한 두 가지 공격, 즉 동질성 공격 및 배경지식에 의한 공격을 방어하기 위한 모델로서 주어진 데이터 집합에서 함께 비식별되는 레코드들은 (동질 집합에서) 적어도 ℓ개의 서로 다른 민감한 정보를 가져야 합니다.

  • 비식별 조치 과정에서 충분히 다양한(ℓ개 이상) 서로 다른 민감한 정보를 갖도록 동질 집합을 구성

정보가 충분히 다양성을 가지고 있으므로 다양성의 부족으로 인한 공격에 방어가 가능하고, 경지식으로 인한 공격에도 일정 수준의 방어능력을 가집니다.

예를 들어, [표-4]에서 모든 동질 집합은 3-다양성(ℓ=3)을 통해 비식별되어 3개 이상의 서로 다른 정보를 가집니다.

  • [표3]과 같이 동일한 질병으로만 구성된 동질 집합이 존재하지 않음
  • 공격자가 질병에 대한 배경지식(예: 여자는 전립선염에 걸리지 않음)이 있더라도 어느 정도의 방어력을 가지게 됨(예: 여성 이지민이 속한 동질 집합 2, 3, 11, 12에서 전립선염을 제외하더라도 고혈압, 위암 중 어느 질병이 “이지민”의 것인지 여전히 알 수 없음)
private
[표-4] ℓ-다양성 모델에 의해 비식별화된 의료데이터의 예



t-근접성(t-closeness)

값의 의미를 고려하는 프라이버시 모델입니다. ℓ-다양성의 취약점(쏠림 공격, 유사성 공격)을 보완하기 위해 모델입니다. 동질 집합에서 특정 정보의 분포와 전체 데이터 집합에서 정보의 분포가 t이하의 차이를 보여야 합니다.

  • 각 동질 집합에서 ‘특정 정보의 분포’가 전체 데이터집합의 분포와 비교하여 너무 특이하지 않도록 함
  • [표-5]에서 전체적인 급여 값의 분포는 30 ~ 110이나 레코드 1, 2, 3이 속한 동질 집합에서는 30 ~ 50으로 이는 전체 급여 값의 분포(30 ~ 110)와 비교할 때 상대적으로 유사한 수준이라 볼 수 있음

    → 공격자는 근사적인 급여 값을 추론할 수 있음

  • t-근접성 모델은 이러한 동질 집합과 전체 데이터 집합 사이의 분포의 과도한 차이를 ℓ-다양성 모델의 취약점으로 규정함
private
[표-5] ℓ-다양성 모델에 의해 비식별되었지만 유사성 공격에 취약한 사례


‘정보의 분포’를 조정하여 정보가 특정 값으로 쏠리거나 유사한 값들이 뭉치는 경우를 방지합니다.

  • [표-6]에서 t-근접성 모델에 따라 레코드 1, 3, 8은 하나의 동질 집합
  • 이 경우, 레코드 1, 3, 8의 급여의 분포는 (30 ~ 90)으로 전체적인 급여의 분포(30 ~ 110)와 큰 차이가 나지 않음
  • 또한, 레코드 1, 3, 8의 질병 분포는 위궤양, 만성위염, 폐렴으로 병명이 서로 다르고 질병이 ‘위’와 관련된 것 이외에 ‘폐’와 관계된 것도 있어 특정 부위의 질병임을 유추하기 어려움
  • 따라서 [표-5]의 경우와 비교하여 공격자가 공격 대상의 정보를 추론하기가 더욱 어려워짐
private
[표-6] t-근접성 모델에 의해 비식별 조치된 데이터 사례


t수치가 0에 가까울수록 전체 데이터의 분포와 특정 데이터 구간의 분포 유사성이 강해지기 때문에 그 익명성의 방어가 더 강해지는 경향이 나타납니다.

  • 익명성 강화를 위해 특정 데이터들을 재배치해도 전체 속성자들의 값 자체에는 변화가 없기 때문에 일반적인 경우에 정보 손실의 문제는 크지 않음

익명화(비식별) 기술을 적용한 다양한 사례

[기업 내부에서 비식별 정보 활용]

➊ □□공사는 고속도로 이용차량 빅데이터 분석을 통해 고객서비스 개선 전략 수립

⏩ □□공사는 최근 5년간 톨게이트 진출입 데이터를 비식별 조치한 후, 월별·시간대별 차량 평균속도, 상습 정체구간, 사고구간 및 원인 등 빅데이터 분석을 실시하여 도로 구조 개선 및 휴게공간 추가 설치 등 고객서비스 개선

➋ ○○통신사는 무선사업부 고객정보를 비식별 조치하여 단말기 판매부서에서 활용

⏩ 단말기 판매부서는 요금제별 단말기 교환주기 및 단말기 선호 가격을 분석하여 단말기 판촉 전략을 수립

➌ △△보험사는 보험사기 사례 정보를 비식별 조치한 후 보험사기 방지시스템 개발

⏩ 동 시스템을 통해 보험계약 체결, 유지, 보험금 지급 등 거래 전 단계에서 보험사기 징후를 자동으로 추출·예방함으로서, 보험사기 발생률 및 보험관리 비용 절감

[다른 기업으로부터 비식별 정보를 제공받아 활용]

➊ ○○증권은 △△은행, ◇◇보험 등에서 비식별 조치한 자료를 제공받아 신상품 개발에 활용

⏩ △△은행, ◇◇보험 등은 보유하고 있는 다양한 신용 정보를 비식별 조치한 후 ○○증권 에게 제공

⏩ ○○증권은 제공받은 자료를 빅데이터 분석하여 ‘로보어드바이저’, ‘ISA’ 등 다양한 신상품 개발에 활용하고 국내 및 해외시장 개척을 추진

⏩ ‘로보어드바이저’를 통해 개인이 문의할 경우 온라인 투자자문, 자산운용 상담 지원

➋ 신생 스타트업인 ◇◇사가 □□은행으로부터 비식별 정보를 제공받아 새로운 비즈니스 모델 개발에 활용

⏩ □□은행은 보유하고 있는 학력·연령·성별 첫 직장, 이직경로, 연봉 등의 정보를 비식별 조치하여 신생 기업인 ◇◇사에 제공

⏩ ◇◇사는 기존의 헤드헌팅 회사와 차별화된 ‘첫 직장부터 퇴직 후까지 커리어 관리 프로그램’을 제공하는 비즈니스 모델을 개발하여 활용

➌ ○○제약회사는 △△심사평가원으로부터 제공받은 비식별 정보를 ××신약개발 연구에 활용

⏩ △△심사평가원이 특정 질병 환자의 연령과 성별에 따른 진료기록을 충분히 비식별 조치한 후, ○○제약회사에게 제공

⏩ ○○제약회사는 해당 정보를 활용하여 ××병의 발병 원인 및 치유 원인을 분석하여 신약을 개발, 수입 약품 대비 20% 저렴한 가격으로 판매

➍ □□홈쇼핑은 ◇◇카드사로부터 구매금액 상위 10% 고객의 결제 내역에 대한 비식별 정보를 제공받아 우수고객 마케팅 전략 수립에 활용

⏩ □□홈쇼핑과 ◇◇카드사는 고객 전화번호와 카드 결제정보를 각각 복원되지 않는 알고리즘으로 비식별 조치하여 A전문기관에 제공하고 A전문기관은 두 정보를 결합한 후, □□홈쇼핑에게 제공

⏩ 비식별 조치된 고객의 결제정보를 통해 □□홈쇼핑은 우수고객이 선호하는 물품을 특정

시간대에 할인 행사를 실시하는 마케팅 전략 수립

Conclusion

데이터 3법의 개정으로 정보주체의 동의 없이 과학적 연구, 통계작성, 공익적 기록보존을 목적으로 가명정보를 활용할 수 있는 근거가 마련되었습니다. 기존에는 개인정보 보호에만 집중하던 것에서 이제는 개인정보의 활용도 모색이 가능한 상황이 되었습니다.

가명정보 및 익명정보의 활용에 있어서 문제가 되는 것은 비식별화된 데이터가 다시 재식별이 가능해질수 있다는 것입니다. 기업 입장에서는 데이터 활용을 통해 많은 이익을 얻을 수 있지만, 재식별이 가능하도록 만드는 기술이 발전하면서 비식별화된 정보와 개인정보의 구분이 모호해지는 상황이 발생할 가능성이 높은 것 또한 사실입니다.

데이터의 활용이 중요하더라도 가명정보의 재식별로 인한 개인정보 침해 가능성에 대한 우려도 커지고 있다는 점을 고려했을 때 정보의 활용에만 무게를 두는 것은 바람직하지 않으며, 안전한 개인정보 처리를 위한 연구와 노력도 뒤따라야 할 것입니다.

참고자료

  1. 데이터 익명화 개념 이해 및 최신 기술 동향
    김종선, 이혁기, 정기정, 정연돈 지음 / 휴먼싸이언스.

  2. 개인정보 비식별 조치 가이드라인
    국무조정실 행정자치부 방송통신위원회 금융위원회 미래창조과학부 보건복지부 / 관계부처 합동

  3. 대한민국 정책브리핑 > 데이터3법
    https://www.korea.kr/special/policyCurationView.do?newsId=148867915

  4. KISO JOURNAL > 데이터 규제 3법 개정 전망과 과제
    https://journal.kiso.or.kr/?p=9732


김조은 | 데이터B팀
kimje@brandi.co.kr
브랜디, 오직 예쁜 옷만