음성 인식률 90%대라지만 제한된 환경에서만 가능
대화 이해도 떨어져…학습 데이터 축적 필요
주요 기업들이 차세대 먹거리인 인공지능(AI) 시장 공략을 위해 음성 인식 AI 비서를 앞다퉈 선보이고 있다. 하지만 정작 이용자들은 말귀조차 못 알아듣는 '스마트 비서' 때문에 속을 끓인다.
업계는 인공지능 비서에 다양한 서비스를 접목하고 있지만, 시장 확대를 위해서는 음성 인식률을 높이고, 이용자의 의도를 정확히 파악하는 작업이 시급하다는 지적이 나온다.
◇ 조용한 환경에서 정확한 발음 선호…일상 환경과 거리
28일 관련 업계에 따르면 국내 출시된 AI 비서의 음성 인식률은 90% 수준이다.
하지만 소음이 있는 환경에 인식률은 크게 떨어진다. 잡음을 구분하는 능력이 부족해 조용한 환경에서 정확하게 발음해야 명령을 수행하는 경우가 많다.
SK텔레콤의 음성 인식 AI 기기 '누구' 온라인 판매 사이트에서 구매자들은 음악감상, 무드등 등 기본 기능에 전체적으로 만족하면서도 정작 음성 인식에 대해서는 불만을 드러냈다.
'멀리 떨어져 있으면 말을 못 알아들어 답답하다' '발음을 아주 정확히 해야 알아듣는다'는 등의 리뷰를 종종 찾아볼 수 있다.
화자의 의도를 파악하는 능력에 대해서도 '정해진 규칙에 맞춰서 대화하지 않으면 잘 못 알아듣는다' '지정된 형식의 명령만 수행한다'는 반응이다.
네이버가 최근 모바일 애플리케이션 형태로 선보인 AI 서비스 '클로바'는 음성 인식은 비교적 정확하지만, 대화 이해도는 떨어진다는 평가다. 실제로 실행해보니 베타 버전(시범판)인 탓인지 고유명사 인식에 취약한 모습을 보였고, 문맥을 이해하는 능력도 제한적이었다.
'너는 어떻게 생겼니?'라는 질문에 '제법 매력 있다는 소리를 많이 들어요'라고 응수하다가 추천해준 음악이 마음에 든다고 하자 '마음에 든다'는 표현과 관련한 검색 결과를 화면에 주르륵 나열했다.
삼성전자의 AI 서비스 '빅스비'는 사투리를 인식하고, 내비게이션을 열고 길 안내를 하는 등 복잡한 명령도 수행하지만, 화자의 의도에 맞게 검색 결과를 찾아주는 능력은 부족한 것으로 평가된다.
◇ 학습 데이터 필요…"대충 말해도 알아듣는 능력 키워야" 음성 인식 AI는 2011년 애플 시리와 구글 나우가 출시되면서 본격적으로 상용화됐다. 2010년 음성 인식 정확도는 70% 안팎에 불과했지만, 최근에는 최고 95% 수준에 달했다.
일반적으로 음성 인식 기술은 마이크와 같은 센서를 통해 음향 신호를 추출한 후 잡음을 제거한다. 이후 음성 신호의 특징을 추출해 음성모델 데이터베이스와 비교하는 방식으로 화자의 의도를 인식한다.
통상 음성 인식 솔루션을 통한 입력 속도는 마우스, 키보드 등 물리적 인터페이스보다 2∼3배 빠른 것으로 알려졌다.
하지만 사람마다 목소리, 발음, 억양 등이 달라 최대한 많은 이용자로부터 데이터를 수집해야 정확도를 높일 수 있다.
잡음을 걸러내기 위해 다양한 상황에서 데이터를 학습하는 방법도 필요하다. 가령 TV 소리 등 기타 잡음으로부터 사람 목소리를 꾸준히 구분하는 연습을 시키면 오작동을 줄일 수 있다.
이런 이유로 AI 비서는 데이터베이스를 바탕으로 스스로 학습하고 진화하는 딥러닝을 활용한다. SK텔레콤 '누구'는 하루 평균 50만건의 대화를 학습하는 것으로 알려졌다.
최근 AI 비서는 기존 가정용 기기 제어나 정보 검색뿐 아니라 쇼핑, 금융, 자동차 등 다양한 분야로 활동 영역을 넓히고 있다.
하지만 AI 음성 비서가 자리 잡기 위해서는 기본 기능인 음성 인식의 향상이 시급하다는 지적이 나온다. 여기에는 사용자의 의도를 정확하게 파악하는 기술도 포함된다.
업계 관계자는 "국내 인공지능 비서는 아직 초보 단계라 학습 데이터가 부족한 상태"라며 "확보한 데이터를 바탕으로 잡음이 많은 환경에서 대충 얘기해도 화자의 의도를 정확히 파악하고, 명령을 수행하는 기술이 서비스 만족도를 좌우할 것"이라고 말했다.