주요 정보기술(IT)·전자기업들이 최근 인공지능(AI) 비서 서비스 도입에 박차를 가하고 있다. 4차 산업혁명을 이끌 수 있는 사업 분야로 향후 글로벌시장에서 신성장동력으로 활용하기 위해서다. 게다가 최근 소비자 니즈도 늘고 있다.
국내 대표 AI비서 서비스의 음성인식률이 낮다는 게 그의 설명이다. AI 비서 서비스는 대부분 음성인식을 통해 이뤄지기 때문이다. 가령 스마트폰에 탑재된 AI 비서 서비스의 경우 "2일전 찍은 사진을 보여줘"라고 주문하면 해당 사진을 나열하고, "문자로 OO에게 전송해 줘"라고 말하면 해당 파일을 상대방에게 전송하는 식이다. 상황이 이렇다보니 제대로 된 서비스를 제공하기 위해선 음성인식률을 높이는 게 필수다.
28일 업계에 따르면 국내 출시된 AI비서의 음성인식률은 서비스 중인 기업들의 설명대로라면 평균 90% 수준이다. 그러나 실제 음성인식률은 이보다 낮다. 소음이 없는 특정 조건이 구비된 곳에서 얻어진 결과로 소음이 있는 환경에 인식률은 크게 떨어지기 때문이다. 잡음을 구분하는 능력이 부족해 조용한 환경에서 정확하게 발음해야 명령을 수행하는 경우가 많다.
네이버가 최근 모바일 애플리케이션 형태로 선보인 AI 서비스 '클로바'는 음성 인식은 비교적 정확하다. 다만 대화의 이해도가 떨어진다는 평가다. 사람과 대화를 통해 서비스를 받는 게 아닌 단순 주문에 효과적이다. AI 비서가 학습을 통해 사용자의 의도를 파악한다는 당초 설명과는 다소 차이가 있다.
삼성전자의 AI 서비스 중인 '빅스비'도 비슷하다. 빅스비의 경우 사투리까지 인식하는 등 음성인식률은 가장 높은 편에 속한다. 내비게이션을 열고 길 안내를 하는 등 복잡한 명령도 수행한다. 다만 네이버의 클로바처럼 화자의 의도에 맞게 검색 결과를 찾아주는 능력은 부족하다.
음성 인식 AI는 2011년 애플 시리와 구글 나우가 출시되면서 본격적으로 상용화됐다. 2014년에는 아마존이 AI 비서 '알렉사'를 스피커에 탑재해 서비스에 나서는 등 AI 비서 서비스 업체들이 급증했다.
AI비서 서비스의 초기인 2010년도의 음성 인식 정확도는 70% 안팎에 불과했지만, 최근에는 최고 95% 수준에 달한다.
일반적으로 음성 인식 기술은 마이크와 같은 센서를 통해 음향 신호를 추출한 후 잡음을 제거한다. 이후 음성 신호의 특징을 추출해 음성모델 데이터베이스와 비교하는 방식으로 사용자의 의도를 인식한다. 통상 음성 인식 솔루션을 통한 입력 속도는 마우스, 키보드 등 물리적 인터페이스보다 2∼3배 빠른 것으로 알려졌다.
하지만 사람마다 목소리, 발음, 억양 등이 달라 최대한 많은 이용자로부터 데이터를 수집해야 정확도를 높일 수 있다. 잡음을 걸러내기 위해 다양한 상황에서 데이터를 학습하는 것과 사용자의 의도를 파악할 수 있는 학습 방법에 대한 개선도 필요하다. TV 소리 등 기타 잡음으로부터 사람 목소리를 꾸준히 구분하는 연습을 시키면 오작동을 줄일 수 있으며 사용자 의도를 파악한 뒤 원하는 서비스를 제대로 제공한다면 만족도 향상으로 이어진다.
최근
김세형 기자 fax123@sportschosun.com