당신은 진정한 "익명"이 아닙니다. 익명 데이터와 익명화 된 데이터를 어떻게 묘사합니까?


전체 텍스트는 2715 단어이며 예상 학습 시간은 7 분입니다.

출처 : unsplash

익명화는 데이터의 프라이버시를 보장하기위한 것이며 회사는이를 사용하여 민감한 데이터를 보호합니다. 이러한 데이터에는 다음이 포함됩니다.

 

· 개인 데이터

· 재무 정보 또는 영업 비밀과 같은 비즈니스 정보

· 군사 비밀 또는 정부 정보와 같은 기밀 정보

 

익명화는 개인 데이터 관련 개인 정보 보호 규정을 준수하는 예를 제공합니다. 개인 데이터와 비즈니스 데이터가 겹치는 부분은 고객 정보가있는 곳입니다. 그러나 모든 비즈니스 데이터가 규제되는 것은 아닙니다.이 기사에서는 개인 데이터 보호에 중점을 둡니다.

 

민감한 데이터 유형의 예

 

유럽에서 규제 기관은 누군가 (예 : 이름)와 관련된 모든 정보를 "개인 데이터"로 정의합니다. 형식에 관계없이이 사람과 관련된 모든 정보는 위의 정의를 충족합니다. 지난 세기 이후 개인 데이터 수집은 점차 민주화되었으며 데이터 익명화 문제가 나타나기 시작했습니다. 전 세계적으로 개인 정보 보호 규정이 시행됨에 따라이 문제는 특히 중요합니다.

 

데이터 익명화 란 무엇이며 왜 관심을 가져야합니까?

 

우리는 고전적인 정의로 시작합니다. EU의 일반 데이터 보호 규정 (GDPR)은 익명 정보를 다음과 같이 정의합니다. "식별 또는 식별 가능한 자연인과 관련이없는 정보 또는 데이터 주체가 더 이상 식별 할 수 없거나 식별 할 수없는 방식으로 익명으로 제공된 개인 정보."

  

그 중에서 "식별 가능"과 "더 이상"이 중요합니다. 이는 귀하의 이름이 더 이상 데이터에 표시되지 않아야 함을 의미 할뿐만 아니라 나머지 데이터에서 귀하를 찾을 수 없음을 의미하며, 이는 재 식별 과정 (비익 명화라고도 함)과 관련이 있습니다.

 

마찬가지로 GDPR (계약서)에는 "... 따라서 익명 정보에 데이터 보호를 적용해서는 안됩니다"라는 중요한 사실이 명시되어 있습니다. 따라서 데이터를 익명화하려고하면 더 이상 GDPR 데이터 보호법의 적용을받지 않습니다.

 

분석 또는 데이터 수익 화와 같은 모든 처리 작업을 수행 할 수 있습니다. 이것은 많은 기회를 제공합니다.

 

· 판매 데이터는 분명히 선호되는 용도입니다. 전 세계적으로 개인 정보 보호법이 개인 데이터 거래를 제한하고 있으며 익명 데이터는 회사에 또 다른 옵션을 제공합니다.

 

· 협력의 기회를 제공합니다. 많은 회사가 혁신 또는 연구를 위해 데이터를 공유하고 있으며 익명 데이터는 위험을 줄이는 데 도움이 될 수 있습니다.

 

· 또한 데이터 분석 및 기계 학습 기회를 창출합니다. 호환성을 유지하면서 민감한 데이터를 운영하는 작업은 점점 더 복잡해지고 있습니다. 익명 데이터는 통계 분석 및 모델 교육을위한 안전한 원료를 제공합니다. 전망이 밝습니다. 그러나 실제로 진정한 익명 데이터는 종종 원하는대로되지 않습니다.

 

데이터 프라이버시 보호 메커니즘의 범위

 

데이터 개인 정보 보호의 범위가 있습니다. 수년에 걸쳐 전문가들은 방법, 메커니즘 및 도구를 통합하는 일련의 기술을 개발했습니다. 이러한 기술은 다양한 수준의 익명 성과 다양한 재 식별 위험 수준으로 데이터를 생성합니다. 그 범위는 개인 식별 데이터와 심지어는 진정한 익명 데이터까지 포함한다고 말할 수 있습니다.

 

 데이터 프라이버시의 범위

 

왼쪽에는 직접 개인 식별 번호가 포함 된 데이터가 있습니다. 이러한 요소를 통해 이름, 주소 또는 전화 번호를 식별 할 수 있습니다. 다른 쪽 끝은 GDPR에서 인용 한 익명 데이터입니다.

 

보시다시피 이러한 데이터에는 중간 범주가 있습니다. 이는 식별 가능한 데이터와 익명 데이터, 즉 가명 데이터와 익명화 된 데이터 사이에 있습니다. 그 정의는 여전히 논란의 여지가 있습니다. 일부 보고서는 익명화를 익명화의 일부로 간주하고 다른 보고서에서는이를 배제합니다.

 

이 "중간 데이터"를 생성하는 기술은 본질적으로 문제가되지 않습니다. 데이터를 효과적으로 최소화 할 수 있습니다. 사용 사례의 필요에 따라 서로 관련되고 유용 할 것입니다. 그러나 그들은 진정한 익명 데이터를 생성 할 수 없으며 그들의 메커니즘은 재 식별을 방지 할 수 없기 때문에 그들이 생성 한 데이터를 "익명 데이터"라고 부르는 것은 오해의 소지가 있습니다.

 

익명 성과 "익명 성"

 

가명 화 및 익명화는 실제로 어떤 방식 으로든 데이터 프라이버시를 보호 할 수 있습니다. 그러나 GDPR의 정의에 따르면 익명 데이터를 생성 할 수 없습니다.

 

출처 : unsplash

가명 화 기술은 데이터에서 직접 개인 식별 코드를 삭제하거나 대체합니다. 예를 들어 데이터 세트에서 모든 이름과 전자 메일을 삭제합니다. 가명 데이터에서 누군가를 직접 식별 할 수는 없지만 간접적으로 식별 할 수는 있습니다. 실제로 나머지 데이터는 일반적으로 간접 식별 코드를 보유하고 있으며, 이러한 정보를 결합하여 생년월일, 우편 번호, 성별 등 직접 식별 코드를 생성 할 수 있습니다.

 

이와 관련하여 가명 화는 GDPR 프레임 워크에서 별도의 정의를 갖습니다. "... 개인 데이터는 더 이상 추가 정보를 사용하지 않고는 특정 데이터 주체에 귀속 될 수없는 방식으로 처리됩니다." 익명 데이터와 달리 익명 데이터는 GDPR 요구 사항을 준수합니다.

 

익명화 기술은 데이터에서 직접 및 간접 개인 식별 코드를 제거합니다. 이론적으로 익명화 된 데이터와 익명화 된 데이터 사이의 경계는 간단합니다. 최신 뉴스는 데이터가 다시는 인식되지 않도록하는 기술이 있음을 보여줍니다. 이것은 "무로 인한 의심스러운 범죄"상황이며, 식별되지 않은 데이터는 식별되기 전에 익명으로 처리됩니다. 전문가들은 처음에 식별되지 않은 데이터를 재 식별하려고 할 때마다 개발을 더욱 추진합니다.

 

데이터 재 식별은 계속해서 익명 성을 재정의합니다

 

위의 메커니즘 유형은 개인 정보 보호에 똑같이 효과적이지 않으므로 이러한 데이터를 처리하는 방법이 매우 중요합니다. 회사는 "익명"이라고 주장하는 데이터를 정기적으로 게시하거나 판매하지만, 사용하는 방법이 "익명 성"을 보장 할 수없는 경우 숨겨진 위험을 초래할 수 있습니다.

 

수많은 사건은 가명 화 된 데이터의 개인 정보 보호 메커니즘에 여전히 결함이 있음을 보여줍니다. 데이터의 간접 식별 코드는 재 식별의 큰 위험을 초래합니다. 사용 가능한 데이터의 양이 증가함에 따라 데이터 세트를 상호 참조 할 기회도 증가합니다.

 

· 1990 년에 MIT 대학원생들은 익명화 된 의료 데이터에서 매사추세츠 주지사를 재 식별하고, 환자의 신원을 확인하기 위해 정보를 공공 인구 조사 데이터와 교차 참조했습니다.

 

· 2006 년 연구 프로젝트의 일환으로 AOL (AOL)은 익명화 된 검색 데이터를 공유하여 연구자들이 검색 쿼리를 그 뒤에있는 개인과 연결할 수 있도록했습니다.

 

· 2009 년 대회의 일환으로 Netflix는 익명의 영화 등급 데이터 세트를 공개했으며 텍사스 연구원들은 성공적으로 사용자를 재 식별했습니다.

 

· 또한 2009 년 연구자들은 공개 정보만으로 개인의 사회 보험 번호를 예측할 수있었습니다.

 

최근 연구에 따르면 익명화 된 데이터는 실제로 재 식별 될 수 있습니다. 벨기에의 Leuven-Neuve 대학과 London Imperial College의 연구원들은“15 개의 인구 통계 학적 속성을 사용하여 미국인의 99.98 %가 모든 데이터 세트에서 정확하게 재 식별 될 수 있습니다.”라는 사실을 발견했습니다.

 

익명의 휴대 전화 데이터에 대한 또 다른 연구에 따르면 "4 개의 시공간 포인트는 개별 사용자의 95 %를 고유하게 식별하기에 충분합니다."

 

기술은 날마다 발전하고 있으며 더 많은 데이터가 생성되고 있으며 연구원들은 익명화 된 데이터와 익명 데이터 사이의 경계를 긋기 위해 열심히 노력하고 있습니다. 2017 년 연구원들은“인터넷 검색 기록은 공개 데이터를 통해서만 소셜 미디어의 개인 정보와 연결할 수 있습니다.”라는 논문을 발표했습니다.

 

또 다른 걱정거리는 개인 정보 유출로, 점점 더 많은 개인 정보가 유출되고 있습니다. ForgeRock 소비자 신원 유출 보고서는 2020 년 정보 유출 건수가 작년보다 많을 것으로 예측합니다. 미국에서만 2020 년 1 분기에 16 억 건 이상의 고객 기록이 유출 될 것입니다.

 

별도로 처리 된 데이터 세트는 재 식별 할 수 없지만 유출 된 데이터와 결합되면 더 큰 위협이됩니다. 하버드 대학의 학생들은 유출 된 데이터를 사용하여 데이터를 재 식별하고 익명화 할 수 있습니다.

 

출처 : unsplash

간단히 말해서, "익명 데이터"라고 생각하는 것은 종종 실제로 익명 데이터가 아닙니다. 모든 데이터 삭제 방법이 진정한 익명 데이터를 생성하는 것은 아닙니다. 모든 것에는 고유 한 장점이 있지만 익명 성과 동일한 수준의 개인 정보를 제공 할 수있는 것은 없습니다. 데이터의 양이 계속 증가함에 따라 진정한 익명 데이터를 생성하는 것이 점점 더 어려워지고 있으며 잠재적으로 재 식별 가능한 개인 데이터를 게시하는 회사의 위험도 증가하고 있습니다.

 


추천 독서 주제

친구 서클 보내기와 같은 댓글 남기기

AI 학습 및 개발의 건조물을 공유합시다

편집 팀 : Hao Yanjun, Zhu Yi

관련된 링크들:

https://www.kdnuggets.com/2020/08/anonymous-anonymized-data.html

재 인쇄하는 경우 배경에 메시지를 남기고 재 인쇄 사양을 따르십시오.

추천 기사 읽기

50 ACL2018 Proceedings의 해석

EMNLP2017 에세이 28 개 논문 해석

2018 년 3 대 AI 컨퍼런스에서 중국의 학문적 성과에 대한 전체 링크

ACL2017 Proceedings : 34 개의 해석 및 건조 제품이 모두 여기에 있습니다.

10 개의 AAAI2017 고전 논문 검토

관심을 추가하려면 QR 코드를 식별하려면 길게 누르세요.

핵심 독자는 당신을 사랑합니다

추천

출처blog.csdn.net/duxinshuxiaobian/article/details/108633491