이루다 개발사 "실명 전부 못 걸렀다" 개인정보 유출 인정…공식 사과

인공지능(AI) 챗봇 '이루다'. 이루다 페이스북 캡처

인공지능(AI) 챗봇 '이루다'를 개발한 스타트업 스캐터랩이 "알고리즘으로 실명 필터링을 거쳤는데, 문맥에 따라 이름이 남아있는 부분이 있었다"고 인정하면서 사과했다.

스캐터랩은 12일 오후 보도자료를 통해 "이루다는 '연애의 과학'의 텍스트 데이터를 학습했다"며 "발화자 이름 등 개인정보는 삭제했다"고 밝혔다.

연애의 과학은 연인과 나눈 카카오톡 대화를 입력하면 답장 시간 등 대화 패턴을 분석해 애정도 수치를 보여주는 앱이다. 스캐터랩이 2016년 출시했다.

스캐터랩은 연애의 과학으로 수집한 카톡 대화 약 100억 건을 데이터로 삼아 이루다를 개발했다고 밝혀왔다.

연애의 과학 이용자들은 스캐터랩이 카톡 대화를 수집하면서 이루다 같은 챗봇 개발에 쓴다고 명확히 알리지 않았고, 익명 처리도 제대로 하지 않았다면서 집단소송을 추진하고 있다.

이날 자료에서 스캐터랩은 "이루다는 회원 정보와 연계돼있지 않은 별도 데이터베이스(DB)에 수록돼있는 문장으로 이용자에게 응답한다"며 "DB 문장을 조합해 개인을 특정하는 것은 불가능하다"고 설명했다.

연애의 과학으로 카톡 대화 약 100억 건을 수집했고 이중 이루다에 쓸만한 문장 1억 건을 추려서 별도 DB를 만들었으며, 1억 개 문장은 익명화를 거쳐 독립적인 형태로 저장했기 때문에 이루다의 발언을 조합해서 개인을 특정할 수는 없다는 설명이다.

그러나 스캐터랩은 "개별 문장 단위 대화 내용의 실명·영문·숫자 등의 정보는 알고리즘과 필터링으로 삭제했는데, 문맥에 따라 인물 이름이 남아있는 등의 부분이 발생했다"며 "더욱 세심히 주의를 기울이지 못했다"고 사과했다.

스캐터랩은 "서비스 출시 이후 민감할 수 있겠다고 판단된 부분들을 발견 즉시 내부 모니터링 팀에서 필터링하며 대응 중이었다"면서 "다만 한글 등을 이용한 변칙적인 방법의 경우 모두 걸러내지 못했다"며 거듭 사과했다.

이들은 "실명·주소 필터링 알고리즘 강화, 대화 데이터 랜덤 변형을 통한 비식별화 강화, 민감 정보 노출 방지 알고리즘 전면적 개선 등을 업데이트할 예정"이라고 강조했다.

스캐터랩 측은 카톡 대화 데이터를 파기할 의사는 밝히지 않았다.

연애의 과학 이용자들은 스캐터랩이 카톡 대화 데이터를 부적절하게 수집하고 제대로 보호하지도 못했다면서 데이터를 전면 파기해야 한다고 요구하고 있다.

스캐터랩은 이루다가 여성·장애인·성소수자·흑인 등을 차별·혐오한다는 논란에 휩싸인 것에 관해서는 "이용자가 먼저 차별·혐오 맥락을 꺼내 동조한 것처럼 보인 것"이라는 입장을 내놨다.

이루다는 이용자와 주고받은 약 10회의 대화를 기반으로 적절한 답변을 선택하는데, 이용자가 맥락상 혐오·차별적 답이 나올 수 있는 대화를 시도할 경우 이루다가 대화를 이으려는 과정에서 동조한 것처럼 보일 수 있다는 게 회사 측 설명이다.

스캐터랩은 "혐오 표현이나 특정 집단 비하 단어는 서비스 전부터 제거했다"며 "현실적인 조치로 키워드 기반 대응을 했으나, 장기적으로는 AI 알고리즘이 옳고 그름을 배울 수 있도록 할 방안이 필요하다"고 의견을 냈다.

이들은 "더 많은 양의 정제된 데이터를 알고리즘으로 학습시키면 AI가 스스로 윤리 의식이나 도덕적 기준을 정립할 수 있다고 생각한다"며 "이루다를 사회 보편적인 가치를 담은 AI로 개선해나가겠다"고 덧붙였다.

그러나 스캐터랩은 이루다가 이용자의 차별적 대화 시도에 동조한 것뿐이라면서 왜 이루다가 남성·백인에는 특별한 반응을 보이지 않고 유독 사회적 소수자·약자를 가리키는 단어에만 "정말 싫다, 소름끼친다"며 혐오를 쏟아냈는지는 설명하지 않았다.

김종윤 스캐터랩 대표는 보도자료에서 "(이루다 서비스 중단으로) 저희 첫걸음은 멈췄지만, 사람만큼 대화를 잘하는 친구 같은 AI를 만들겠다는 꿈을 멈추고 싶지는 않다"며 "이슈가 된 부분을 성찰 기회로 삼겠다"고 말했다.

노컷뉴스