Search
🙆🏻

이루다와 관련하여 사실을 바로 잡습니다.

1. 이루다 챗봇을 통해서 전화번호 및 계좌번호가 유출되었다 (X)

이루다의 답변은 원천적으로 숫자와 영문을 배제합니다. 따라서 숫자로 이루어진 전화번호 및 계좌번호 유출은 1건도 없었으며, 일부 미디어에 보도된 숫자로 된 계좌번호 유출은 존재할 수 없는 이미지입니다. 단, 숫자와 동호수 등을 한글로 표기하는 등의 변칙적인 사용의 경우 제외되지 못한 케이스가 극소수 있었으나, 운영팀에서 발견하는 즉시 답변으로 제공되지 않도록 조치하였습니다.

2. 사용자의 주소가 유출되었다 (X)

같은 이유로 숫자가 포함된 주소 유출도 없었습니다. 전체 모니터링 결과, 한글로 표기된 변칙적인 사용의 경우 동/호수 등 상세 주소를 포함한 건이 1건 있었으나, 해당 답변은 운영팀에서 발견한 후 제공되지 않도록 즉시 조치하였습니다.

3. 이루다는 실제 연속된 대화 내용을 기반으로 그대로 답변을 한다 (X)

이루다가 실제 연인 간의 연속된 대화를 기반으로 그대로 대답할 확률은 전혀 없습니다. 이루다의 모델은 무수한 문장 간 연관 관계를 통해 '대화하는 방법'을 학습한 것으로, 대화 맥락을 저장하여 답변을 골라내는 방식이 아닙니다. 이루다는 대화 형태의 데이터를 저장하고 있지 않으며, 오로지 개인을 식별할 수 없는 개별 문장을 데이터베이스로 사용하여 문장 중 어떤 것이 논리적으로 알맞은 답변인지 선택하게 됩니다.

4. 이루다는 연애의 과학 데이터를 기반으로 학습했다 (O)

이루다는 연구개발 데이터베이스를 통해 사전학습(프리트레이닝) 단계를 거쳤고, 이 단계에서 해당 데이터를 기반으로 학습한 것이 맞습니다. 그러나 사전학습 단계에서는 대화 데이터를 그대로 기억하는 것이 아니라, 맥락과 답변의 상관관계를 학습합니다(이 점에서 빅데이터와 딥러닝은 다릅니다).

5. 이루다가 사용자의 사적인 대화를 알고 있다 (X)

이루다는 사용자의 개인 대화 내용 자체를 기반으로 답변을 하는 것이 아니며, 이에 따라 사적인 대화 내용 또한 알 수 없습니다. 이루다의 학습 모델은 대화 데이터에서 대화 맥락과 답변의 상관관계만을 학습하기 때문입니다.

6. 애인과의 대화가 이루다 답변에 그대로 노출되었다 (X)

명백한 오보입니다. 이루다의 답변은 답변을 위한 DB가 별도로 구성되어 있고, 이 DB에는 랜덤한 1억 개의 문장들이 수록되어 있습니다. 이루다는 수록된 1억 개의 개별 문장 중 말하는 사람의 표현, 분위기, 말투 등에 영향을 받아서 본인이 적절하다고 판단한 문장을 불러와 답을 하게 되는데, 대화의 특성상 적절하다고 판단되는 답변이 말하는 분의 표현이나 말투와 비슷할 가능성이 높습니다.
예전의 대화 내용과 비슷하다고 느끼는 것은 말하는 사람이 같은 질문을 했을 가능성에 더해, 말하는 사람과 최대한 비슷한 표현 및 말투로 대답했기 때문으로 추측됩니다. 전술한 바와 같이 이루다는 개별 답변을 스스로 선택해 답을 하는 구조이기 때문에 사전 데이터의 대화 내용을 저장하지 않고 있으며, 따라서 과거 연인의 대화 데이터가 그대로 노출될 가능성은 존재하지 않습니다.

7. 이루다와의 대화를 통해 특정 개인이 노출되었다 (X)

이루다와의 대화를 통해 특정인을 특정할 수 없고, 정보가 노출되는 일도 발생할 수 없습니다. 총 7단계의 비식별 처리를 거쳤고 극히 일부의 이름이 남아있는 경우라도, 다른 정보와 결합해 개인을 식별할 가능성이 없습니다. 이루다의 답변은 1억 개의 개별 문장만 존재하고, 이루다는 대화자의 특성(말투, 표현 등)을 반영하여 적절하다고 판단한 답변을 선택하는 구조이기 때문입니다. 이루다에게는 개인의 이름과 다른 정보를 연결할 방법이 없습니다.

8. 사용자가 나쁜 말을 하면 이루다도 배운다 (X)

이루다는 사용자와의 대화 내용을 실시간으로 학습하지 않습니다. 인공지능을 학습시키는 학습 DB가 별도로 존재하기 때문에, 새로운 대화 내용을 학습시키기 위해서는 새로운 대화 데이터를 학습 DB에 업데이트할 필요가 있습니다. 이루다는 사용자의 말투와 표현에 영향을 받아 답변을 선택할 확률이 높기 때문에 사용자가 나쁜 말을 하면 기존에 임의로 수록된 답변 DB의 문장 중 비슷한 말을 이루다가 선택할 수도 있습니다. 또한 답변 DB의 문장들은 사용자 데이터 중 랜덤하게 추출한 1억 개로 구성되어 있으며, 일부 대화에서 적절하지 못한 문장들도 발견되었습니다.
앞으로는 불쾌함을 유발하거나 사회 보편적 가치에 반하는 표현이 사전에 높은 수준으로 필터링 될 수 있도록 하겠습니다.

9. 이루다를 여성 20대로 설정한 것에는 편향된 의도가 있다 (X)

이루다 이전에 남자 챗봇(허세중)도 출시했고, 고양이 챗봇(드림이)도 출시했습니다만, 이루다 챗봇이 가장 큰 주목을 받았습니다. 사내 기술 개발 지식이 축적되며 가장 최근에 출시한 이루다의 학습이 가장 잘 이루어졌고, 이에 따라 다른 챗봇보다 특히 이루다와 대화했을 때 친구와 대화하는 것 같은 느낌을 받았다고 생각합니다.