6전공 + 회사일 + 글쓰기는 너무 힘들어서 프로그래밍 관련 글은 주제도 변경하고(현업에서의 개발론과 조금 묶어서 이야기하게 될 것 같습니다) 나중에 올리게 될 것 같습니다...

대신 일단 이번 학기에 컴퓨터학에서 최근에 연구되는 내용들을 소개받고 이에 대해서 세미나를 쓰는 과목에서 제출한 글을 올려 드립니다.

상당히 흥미로운 내용을 교수님께서 소개하셨으니 한번 읽어 보세요. 이미 평가까지 끝난 강의라 올려도 무방하겠다고 판단해 올려 드립니다.


개인정보에 대한 보호는 많은 서비스들을 우리가 믿고 쓰게 하는 근원이다. 만약 어떤 서비스가 되었든, 소비자가 신뢰할 수 없다면 시장에서 받아들여질 수 없다. 따라서 사용자로 하여금 본인을 인증하고, 적법한 사용자만이 데이터를 변형할 수 있는, 정보보호의 보안 개념은 많은 서비스에 필수적으로 적용되어 있다. 개인정보를 인권의 관점에서 해석하는 한국의 개인정보보호법, 유럽의 GDPR 이 되었든, 재산권의 관점에서 해석하는 미국의 법 관점이 되었든 개인정보를 보호할 책임은 형사적, 혹은 민사적인 관점에서 매우 엄정하게 관리된다. 종래의 개인에 대한 엔티티를 각자만이 접근할 수 있었던 데이터베이스 모델에서도 물론 쉽지 않은 일이었다. 하지만 모든 문제는 ‘인가되지 않은 사용자의 정보 접근을 차단한다’ 로 요약될 수 있었기에, 데이터베이스에 접근하는 전 과정에서 가능한 한 적법하지 않은 접근을 차단하는 것으로 해결책 또한 요약할 수 있었다.


 그러나 인공지능이 컴퓨터 공학과 이를 기반으로 한 서비스들의 새로운 중심이자 기준이 되면서 상황이 달라졌다. 많은 이들이 사용하는 유튜브를 예시로 들 수가 있다. 유튜브의 수익 모델은 광고, 혹은 구독형 서비스의 판매를 중심으로 한다. 유튜브의 서비스 주체인 구글의 핵심 수익 모델은 광고에 기반을 두고 있다. 이는 사용자에게 적합한 광고를 송출해야 함을 의미한다. 사용자들의 광고에 대한 반응 자체가 수익성과 밀접한 연관을 갖고 있기 때문이다. 적절한 구간 이내의 행동이 다음 구간의 행동을 예측하는 데 쓰일 수 있다는 가정 하에 이와 같은 서비스들은 사용자들의 정보를 수집하고, 분류하고, 가공한 다음 사용자들의 다음 행동을 예측한다. 구독 서비스의 경우에도 마찬가지다. 소비자로 하여금 자신이 원하는 컨텐츠를 지속적으로 제공받아야 수익성을 유지할 수 있다. 이를 위해서 대규모의 정보를 수집하고, 또 대규모 통계에 대한 데이터를 대중에게 제공해야 하는 상황 또한 많아졌다. 여기에서 개인정보를 제공하지 않았음에도 불구하고 개인을 식별할 수 있는 정보를 추출할 수 있는 상황이 생겨나기 시작한다. 전 국민의 통계(Census)를 생각해 보자. 그 중 특정 지역의 평균 소득에 대한 통계를 생각해 보자. 특정 개인을 식별할 수는 없다고 해도, 매 번 통계를 낼 때마다 전체 응답자수를 더하고, 전체 지역 주민에 대한 평균 소득을 제공하며, 다른 통계치(성별분포, 연령분포 등)에 대해서도 동일한 관리 전략을 취한다면, 서버에 충분히 많은 수의 평균치를 요청한다면 익명화된 상태에서 개인의 정보를 충분히 유추할 수 있고, 다른 채널을 통해 해당 지역의 주민에 대한 기반정보를 아는 상태라면 충분히 개개인의 민감 정보를 추론해낼 수 있다. 시스템은 해당 정보를 제공하지 않았지만, 정확한 통계치를 제공했을 때 대표값의 변화 추이로 개별 엔티티의 정보를 상당히 정확하게 유추하는 것이 가능한 것이다. 이런 문제를 어떻게 해결할 수 있을까?


 문제에 대한 해결은 근본 원인을 찾아 이를 제거하는 것이다. 개별 엔티티의 정보를 유추할 수 있었던 이유는, 정확한 통계치를 제공했기 때문이다. 여기서 통계의 의미를 생각해 보자. 평균, 혹은 중앙값 등의 대표값들은 개별 엔티티에 대한 요약이며, 세밀한 정보의 성격보다는 전체적 추이를 요약하는 성격을 더 강하게 띈다. 따라서 통계치에서 경향성을 파악하기 위해 충분히 작은 크기의 노이즈를 더하는 것은 크게 문제가 되지 않으므로, 외부에 통계치를 제공할 때 노이즈를 더해 제공하는 것으로 문제를 완화할 수 있다. 물론 충분히 임의적인 노이즈를 더했을 때는, 여러 번 데이터베이스 시스템에 요청한 결과치의 평균이 요청의 수가 커질수록 원래 값에 수렴하기 때문에 본래 통계치가 사실상 노출될 가능성이 크다. 이와 같은 일의 원인은 지나치게 많은 요청을 데이터베이스 시스템에서 수용하는 것이기 때문에, 일정 수를 넘어간 요청을 처리하지 않는 것으로 이와 같은 문제를 피해갈 수 있다. 이와 같은 데이터의 문제는 외부 노출도 문제가 되지만, 해당 데이터를 처리하는 주체 또한 온전히 신뢰할 수 있는가에 대한 문제가 있다. 이미 Facebook, Google 등은 개인정보 처리와 관련해 굉장히 많은 이슈를 겪었으며, 수익 모델 자체를 온전히 광고에 의존하고 있는 Facebook 과 같은 경우는 이와 같은 문제가 더욱 심각하다. 이 때는 사용자의 개별 디바이스에서 애초에 노이즈를 더해 서버로 제공하는-즉 통계치를 외부에 제공하는 상황이 아니라 데이터베이스 시스템 자체에 노이즈를 더한  자료를 제공하는-방안을 생각할 수 있다. 이와 같은 방법을 Local noise 라고 부른다. 이와 같은 방법론은 개별 사용자의 행동양식을 Tracking 하는 마케팅 트래커 툴, 어널리틱스 툴에 상당히 많이 활용되고 있다.


 지금까지는 데이터베이스 시스템 자체에서 정보보호상의 결함이 없음에도 불구하고 발생하는 개인정보 누출을 방지할 수 있는 구체적 방법론들을 보았다. 또한 이들이 실제로 사용되고 있는 분야들 또한 보았다. 이와 같은 행위들에 대한 요구사항이 점차 커지고, 중요도도 점차로 상승하고 있는 이유에 대해서 알아보도록 하자. Apple Comuter 는 자사의 모바일 운영체제 iOS(혹은 iPadOS) 14 버전에서 개인정보 보호를 강화하기 위한 일련의 정책들을 발표했다. SSO 를 사용한 인증 수단만을 제공하는 기업에 마스킹된 이메일과 익명성이 강화된 이름 말고는 어떤 정보도 서드파티에 제공하지 않는 Sign in with Apple 를 사용할 것을 강제했고, App Store 를 통해 유통되는 모든 앱에 사용자로부터 어떤 정보를 제공받는지, 해당 정보의 용처가 무엇인지 명기하도록 요청했으며, 가장 최근에는 웹에 시범적으로 사용되던 Do Not Track 요청을 사용자를 추적하는 서비스에서 명시적으로 허용받도록 강제했다.


 물론 Apple 의 의도가 순수한지에 대해서는 매우 큰 논쟁이 있다. 사용자의 정보 주권을 강화하고 시장 전체에 개인정보 보호라는 요구사항을 관철시키는 데 선도적인 자세라는 긍정적 평가가 있는가 하면, 상업성을 의도하고, 시장 전체에 자신들의 지배력을 강화하기 위해서라는 지적 또한 매우 큰 상태다. 하지만 어느 쪽이 Apple 의 의도이건 간에, 이후로 이어진 Facebook 및 Google 과의 갈등, 그리고 이에 대한 전 세계의 반응 양상을 보면, 개인정보 보호에 대한 수요가 어떤 방법으로 발달해 왔으며 앞으로는 어떻게 발달해 갈 것인지, 그리고 이것이 시장에 어떤 영향을 미칠지를 가늠해 볼 수 있다.


 아이러니하게도 미국이 전세계 IT 산업의 발상지이며, 그럼에도 불구하고 개인정보 보호에 대해 법 체계가 선진국 중 가장 소극적인 국가에 해당하기 때문에 미국 시민들이 개인정보 보호에 대해 가장 민감하게 반응하는 것으로 보인다. 물론 민사상의 책임은 미국 또한 엄정하게 지고 있고, 타국과 비교했을 때 ‘징벌적 손해배상’ 이라는 개념이 인정되어 해당 책임은 오히려 더욱 엄정하게 물고 있지만, 사법체계가 직접적으로 개입할 수 없기 때문에 개개인의 입장에서는 매우 크게 공론화 된 일부 사태를 제외하면 개인정보를 보호받을 권리를 침해당했음을 입증하기가 매우 힘들다. 이와 같은 미국의 개인정보 법 체계의 특성은 오히려 국민들의 개인정보 보호에 대한 수요와 열망을 더욱 크게 만들었으며, 소비자들이 기업들과 직접적으로 연대하거나 대립하는 특이한 양상을 만들어냈다.


 또한 GDPR 의 유래를 보면 경제적 이유 때문에도 개인정보 보호가 사법적으로 요구되는 상황이 빈번하게 일어날 것임을 예측할 수 있다. 당시 Facebook 과 Google 등의 기업이 EU 와 국부 유출에 대해 갈등이 커져가던 상황이었고, 해당 기업들이 개인정보를 기반으로 수익을 창출하는 기업임에 착안, 정치권에서 해당 기업들에 개인정보 보호에 대한 책임을 엄정하게 물어 해당 기업들이 현지에서 수익을 지나치게 많이 창출하는 것을 견제하고자 하였다. 실제 대한민국에서도 탈세 의혹이 생겼을 때 비슷한 양상으로 상황이 진행된 것을 고려하면, 집단 간 이해관계에 따라 개인정보 보호가 제도적으로 무기화되는 상황 또한 충분히 발생할 것이라 짐작할 수 있다.


 또한 최근 개인정보 분석을 개인적인 수준에서만 제한하고, 해당 모델들을 사용자의 계정이 인증된 기기 사이에서만 종단 암호화를 통해서 제공하는 대신 유상으로 서비스를 제공하는 모델들 또한 점점 발달하고 있다. 데이터 처리의 근간이 되는 이론과 기술적 기반들은 이미 충분히 발전한 상황에서, 개인정보 제공이라는 위험, 혹은 권리 침해를 감수해 가면서 서비스를 사용할 필요가 없다는 데에 대한 사용자들의 공감대가 있음을 짐작할 수 있다. 개인정보 보호 등 사회적 의제를 상업화하는 기술기업 Apple 의 경우 이미 종단 장치에서의 개인화 뉴스 큐레이션을 제공하는 Apple news 를 제공한 바 있다. 이와 같은 상황은 궁극적으로 데이터 관리 주체에 대한 신뢰의 문제를 내포하고 있다. 위에서 언급한 기술적 기반들은 신뢰를 회복할 수 있는 기회를 제공할 수 있지만, 미국 내에서, 그리고 전 세계적으로 Facebook 과 Google 은 여전히 큰 비판을 받고 있다. 투명성 보고서, 개인의 정보 주권을 강화하면서도 높은 수준의 개인화 서비스를 제공하는 방법론의 제안 또한 좋지만 이와 같은 시스템이 널리 받아들여지기 위해서는 소비자와의 감정적 문제를 해결하는 것도 매우 중요한 과제가 될 것으로 보인다.