Search

[보도-1/13] 미디어 Q&A 취합(2차)

Q1. 깃허브의 데이터가 사용되었는가?

자체 조사 결과, 스캐터랩 개발팀은 2019년 ‘깃허브’에 오픈 소스로 공개한 “KG-CVAE -인공지능 한국어 자연어처리(NLP) 연구 모델” 에 내부 테스트 샘플이 포함된 사실이 확인되었습니다. 문제를 발견한 즉시, 해당 깃허브 레파지토리는 비공개 처리가 되었습니다.
해당 연구에는 내부 테스트를 위해 샘플로 추출한 100건의 데이터(100개 세션, 개별 문장으로 환산 시 1700여 건)가 포함되어 있었습니다. 기본적으로 대화 중 실명은 “<NAME>”, 숫자는 “<NUM>”으로 자동화 비식별 처리를 하였으나, 기계적인 필터링 과정에서도 미처 걸러지지 못한 부분이 일부 존재하였음을 확인하게 되었습니다.
한국어 자연어처리(NLP)와 관련된 기술 개발 및 공유를 위한 것이었으나, 데이터 관리에 더 신중하지 못했고, 일부 민감할 수 있는 정보가 포함된 대화 패턴이 노출된 점에 대해서 진심으로 사과드립니다.
이루다의 DB는 개별적이고 독립적인 문장 DB로 관리되고 있어, 기사에서 인용되는 바와 같이 대화 패턴으로 존재하지 않습니다. 따라서 이루다 DB에서는 대화 패턴을 통하여 대화를 나누는 사람들의 관계나 생활 반경 등이 추정 될 여지는 전혀 없습니다.
KG-CVAE 모델은 ACL 2017에서 발표된 Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders 를 PyTorch를 이용하여 재구현한 내용입니다.

Q2. 이루다의 DB와 깃허브 데이터는 동일한 데이터인가?

깃허브에 업로드되었던 테스트용 데이터는 이루다 DB와는 그 내용과 구성이 다릅니다. 깃허브의 테스트용 데이터와 달리 이루다 DB는 비식별화 처리한 개별적이고 독립적인 DB로, 대화 단위가 아니라 1억개의 개별적이고 독립적인 DB로 구성되어 있습니다.
이루다의 DB는 대화 단위가 아니며 1억개의 개별적이고 독립적인 문장들로 구성되어 있습니다. 알려진 것처럼 데이터 베이스의 문장들을 조합하여 개인을 특정하는 것은 불가능하며 일각에서 주장하듯 이루다 DB가 대화 기록을 그대로 가져다 썼다는 주장은 사실과 다릅니다.

Q3. 그럼에도 불구하고 어째서 “OO동 OO아파트”와 같은 정보가 나오게 되었는지?

우선, 깃 허브 샘플 데이터 DB와 이루다 DB는 완전히 별개로 구분됩니다.
이루다 DB에는 숫자와 영문, 이름 등 개인정보에 해당할 가능성이 있는 정보를 포함하는 데이터는 원칙적으로 사전 필터링을 통하여 완전히 삭제되어 있습니다. 따라서 이루다는 “1동 200호”와 같은 숫자가 포함된 문장으로 답변을 할 수 없습니다. 그러나 숫자를 한글로 기재하는 전형적이지 않은 사례들이 극히 일부 발견되었고, 현재 이를 개선하기 위하여 알고리즘의 고도화 등의 대책을 마련하고 있습니다.
OO은행과 같이 특정 명칭이 일부 이루다 서비스에서 발견된 것은, 앞서 알려드린 바와 같이 수차례의 기계적인 필터링 과정에서도 미처 걸러지지 못한 부분입니다.
이루다의 딥러닝 모델은 학습된 데이터를 대화나 문장의 형태로 저장하는 것이 아니며, 데이터를 통한 패턴만을 학습합니다.
이루다의 딥러닝 모델은 다음과 같은 벡터값의 형식으로 데이터를 이해하고 있기 때문에, 메신저 대화 내용들이 한글 그대로 데이터에 저장되지 않습니다.
이루다 DB는 많은 데이터들 중에서도 비식별화 처리를 거친 1억개의 문장만을 DB로 가지고 있고, 이를 토대로 대화를 하게 됩니다.

Q4. [연애의 과학]의 개인정보는 어떻게 처리하고 있나?

4-1. 개인정보취급방침 동의 절차
[연애의 과학]은 다음과 같은 방법으로 개인정보의 수집, 이용에 관한 이용자의 동의를 받고 있습니다.
먼저 [연애의 과학] 초기 화면에 이용자가 로그인 하기 전 “로그인함으로써 이용약관 및 개인정보취급방침에 동의합니다”라고 기재되어 있고, 이용자가 이용약관이나 개인정보취급방침을 터치하면 전문을 확인할 수 있습니다.
이 때, 이용자가 동의하는 개인정보취급방침에는 수집되는 개인정보의 항목, 수집 및 이용 목적, 보유 및 이용 기간 등이 설명되어 있고, 수집된 메시지 정보가 신규 서비스 개발 및 마케팅, 광고에 활용될 수 있다는 점도 함께 설명되어 있습니다.
[연애의 과학]이 개인정보의 수집, 이용에 동의를 받는 방법은, 실제로 국내외 서비스들이 채택하고 있는 동일한 방법으로, 내부적으로 법적으로 문제가 없을 것이라고 판단하였습니다.
이 과정에서 이용자분들과 충분히 소통하지 못하여, [연애의 과학] 서비스를 아껴주신 이용자 여러분께 심려를 끼쳐드린 점에 깊이 반성하며 머리숙여 사과드립니다.
4-2. 제3자 정보동의 여부
[연애의 과학]은 대화의 당사자 중 한 명이 개인정보 수집, 이용에 동의하여 자발적으로 대화 내용을 연애의 과학에 업로드한 것이므로, 내부적으로 문제가 없을 것으로 판단하였습니다. 참고로 대화 내용은 제3자에게 제공하지 않고, 이용자의 동의를 받은 범위 내에서만 사용하였습니다.
4-3. 개인정보사용 범위
스캐터랩은 [연애의 과학]의 개인정보취급방침에 따라, 자사의 ‘신규 서비스’로서 이루다 서비스 개발을 위해 동의받은 범위 내에서 활용할 수 있다고 생각했습니다. 수집한 데이터는 비식별화 조치를 한 뒤 AI 알고리즘 훈련 등을 위하여 제한적인 용도로만 활용되었습니다.
4-4. [연애의 과학] 이용자들을 위한 사후조치
[연애의 과학] 이용자들 중 AI 학습에 데이터가 활용되기를 원하지 않는 분들은 개인정보보호법에 따라 DB 삭제를 비롯하여, 앞으로 이루다 DB에 활용되지 않도록 적극적인 조치를 진행할 예정입니다.

Q5. 사내에 개인정보보호책임자가 있는지?

스캐터랩에는 개인정보보호책임자(CPO)가 지정되어 있습니다. [연애의 과학]의 원본 데이터는 지정된 한 명의 담당자(CTO)만이 접근할 수 있고, 별도의 DB로 관리하고 있습니다. 이루다의 학습 데이터는 [연애의 과학]을 원천 데이터로 하여 개인을 식별할 수 있는 정보를 제거하고 추출한 것으로, 원천 데이터와는 전혀 다른 DB로 구분하여 관리되고 있습니다.
또한, 이루다의 DB 역시, 개인 식별 정보가 제거된 상태로 완전히 분리되어 별도 DB를 통해 관리되고 있습니다.

Q6. “사내 대화방에서 수집된 대화를 직원끼리 돌려봤다"는 증언이 나왔는데 이는 사실인가?

스캐터랩은 사용자들의 개인정보 보호를 회사의 중요한 사명으로 생각하고 있으며, 이를 위하여 접근통제 조치 등 개인정보 보호법을 준수한 제도를 마련하여 시행 중에 있습니다.
특히 개인정보와 관련된 원 데이터에 접근할 수 있는 권한은 엄격하게 제한하여 철저히 관리하고 있습니다. 그럼에도 불구하고, 위와 같은 회사의 방침을 위반한 불미스러운 행동이 있었다는 언론보도가 있었습니다. 저희는 진상을 신속히 조사하고, 만에 하나 의혹이 사실로 드러나는 경우에는 직위 고하를 불문하고 관련자들에게 엄중히 책임을 묻고 필요한 조치를 취하도록 하겠습니다.
해당 이슈를 인지함과 동시에 사내에서 자발적으로 진상조사위원회가 구성되어 조사를 진행하고 있습니다. 조사위원회에서는 과거부터 현재까지 지속되고 있는 스캐터랩 전 팀원이 참여하고 있는 카카오톡의 대화의 조사가 완료 단계에 있으며, 당해년도 카카오 단체대화방에서는 해당 내용이 없음을 확인하였습니다. 또 다른 사내 메신저 채널인 슬랙에 대해서는 다수의 대화 채널이 있는 관계로, 현재 계속해서 조사를 진행중인 상태입니다. 조사가 마무리되는대로 조사 결과를 투명하게 공개하도록 하겠습니다.
다만 조사 결과가 나올 때까지 확인되지 않은 사실에 대한 근거 없는 보도는 자제하여 주시기를 요청드립니다.

Q7. 이루다 DB에 [진저 for 비트윈]의 데이터는 사용되었나?

이루다 DB에는 [진저 for 비트윈]의 데이터는 일절 사용되지 않습니다.