인공지능 음성인식의 개념 및 특징

1. 인공지능 음성인식의 개념

4차 산업혁명을 주도하는 기술은 인공지능, 드론, 가상현실, 사물인터넷 등 다양하다. 이중에서도 가장 중요한 기술은 바로 인공지능이라고 할 수 있는데, 다양한 기술의 발전은 궁극적으로 인공지능의 한 부분으로 편입되고 있다. 예를 들어, 빅데이터 분석은 인공지능의 머신러닝에 있어서 필수적인 기술이다. 산업간 ‘융합’하는 기술로서도 빅데이터를 분석하여 지능화하는 인공지능이 주축이 될 것으로 전망하고 있다. 통신사들이 미래 성장 산업을 논의할 때 인 공지능이 항상 강조되는 이유이다.

인공지능은 사람처럼 생각하고 행동하는 기기를 만들고자 하는 목표를 가지고 출발한 연구 분야이다. 1955년에 인공지능(Artificial Intelligence : AI)이란 용어가 처음 만들어졌으며, 지난 약 60여 년 역사에서 약 30년 전후로 패러다임 의 전환이 있었는데, 이것이 바로 머신러닝 혁명이다. 머신러닝은 인공지능 방식 중 기기가 스스로 학습하는 방식으로, 이는 이전에 프로그래밍 방식으로 구현하던 인공지능 방식과는 완전히 다르다. 프로그래밍 방식은 프로그램을 만들어주는 인간의 한계를 기계도 갖는 데 반해, 머신러닝 방식의 인공지능은 관찰한 데이터에 기반하여 기기가 스스로 성능을 향상시킬 수 있는 자가 프로 그래밍 방식이다. 음성인식에 있어서 2012년에는 토론토대학의 힌튼 그룹에서 딥러닝을 사용하여 인식률 세계 기록을 세우기도 하였다.

음성인식 기술은 1952년 미국 벨 연구소의 숫자 인식 시스템인 ‘오드레이 (Audrey)’ 개발을 시작으로 많은 발전을 이루었다. 최근의 음성인식 기술 기반 의 인공지능 서비스는 하이브리드(hybrid)한 형태의 서비스로, 예를 들면 애플 社의 시리(Siri)와 같이 음성인식 기술과 인공지능을 결합한 개인별 맞춤형 비 서 서비스가 가능하다.

이제는 인공지능 음성인식 시스템이 중요한 인간과 컴퓨터 간의 인터페이스 로 자리 잡아나가고 있다. 다양한 인공지능 음성인식 시스템의 등장과 함께 ‘챗봇(chatbot)’에 대한 대중적 관심이 높아지고 있다. 이러한 인공지능 음성인 식 시스템과 같은 대화형 에이전트들은 구어를 중심으로 발전해 왔다. 즉, 사용자의 발화 내용을 문자로 변환하기 위한 자동 음성인식 기술, 사용자와의 상호작용을 조종하기 위한 대화 컨트롤러, 사용자에게 정보를 전달하기 위한 방법을 기본적으로 요구한다(Taylor, 1999). 일부 인공지능 음성인식 시스템들 은 시리(Siri)가 동작할 때 나타나는 물결선 또는 사람의 모습을 재현한 아바타와 같은 형태의 그래픽적 요소를 가지고 있다.

인공지능 음성인식은 사용자가 발화한 자연어(natural language)를 해석하고, 음성인식 시스템이 연동하고 있는 빅데이터로부터 가장 적합한 반응을 제공하는 대화형 시스템이다. 또한, 음성 또는 문자를 통해 사람들의 언어를 이해하여 인공지능 음성인식 서비스를 통해 자연어로 대화할 수 있고, 사용자가 지시하는 사항을 실행할 수 있는 소프트웨어로 정의한다. 또한, 사용자의 음성을 정확히 인식할 뿐만 아니라, 의미와 맥락을 파악하고 학습하여 적절한 답변을 제공함으로써 사용자와 의미 있는 대화적 상호작용을 지속할 수 있는 가능성을 포괄하는 개념으로 말하고 있다.

2. 인공지능 음성인식의 특징 및 장단점

음성인식 기반 인터페이스(Voice User Interface : VUI)의 특징은 다음과 같다. 첫 번째, 음성은 가장 자연스러운 UX(User Experience)라는 점으로, 친숙하고 간편한 방식이기 때문에 학습 비용이 매우 낮다. 또한 자판 입력에 비해 속도가 2배~6배 빠르며, 기기 조작이 익숙하지 않은 노인 및 유아의 사용을 쉽게 도와준다. 두 번째, 터치하지 않아도 음성을 통해 조작할 수 있다는 점 이다. 세 번째, 음성을 사용하면 다양한 기능을 동시에 수행할 수 있다. 그러 나 음성 기반 인터페이스는 소음이 있는 주변 환경에 따라 인식률의 정확도가 차이나고, 개인정보 이슈 등의 정책적인 제약이 있으며, 한 번에 너무 많은 정보를 전달하기 어렵다는 단점도 있다.

음성인식은 인간 고유의 정보 전달 방식으로 별도의 훈련 없이 사용될 수 있는 차별화된 강점을 보유하고 있으므로 자연스러운 인터페이스 기술로 활용 될 수 있다. 그리고 잡음이 들리는 환경에 대비하여 노이즈를 제거하거나 조 정할 수 있도록 하는 기술들이 다양하게 연구되고 있다.

인공지능 음성인식 서비스의 환경에서 발신자는 주로 인간, 수신자는 주로 인공지능 음성인식 기기로 대응된다. 인공지능 음성인식과 대화를 시작할 때, 아직까지 발신자와 수신자는 고정되어 있는 경향을 보인다. 즉, 발신자인 인 간이 먼저 인공지능을 부르지 않으면 대화가 시작되기 어렵다. 인공지능 스피커의 대답은 오직 음성으로만 표현되기 때문에 일시적이며 한 번 지나가면 다 시 대화를 시작해야 한다는 부담이 있다. 그러나 문자 대신 음성으로만 대화 가 이루어진다는 점에서 실제 대화와 같은 높은 현존감(presence)을 경험할 가능성이 높다.

3. 인공지능 음성인식 기술의 활용

최근에 급격히 발전하기 시작한 음성 대화 처리 기술은 인간의 발화를 받아 들여 스스로 이해함으로써, 발화 명령을 수행하고 대화를 할 수 있는 수준으로 발전되고 있다. 또한 인간 중심의 자연스러운 음성 발화 처리가 가능한 기 술로 발전한다면 경쟁력을 확보할 수 있을 것이다. 자유발화형 음성 대화 처 리 기술이란 인간과 컴퓨터 간의 단순한 패턴이나 고정된 대화를 벗어나, 사용자의 자연스러운 자유 발화를 듣고 의도를 파악하여 주제와 문맥에 맞는 자연스러운 대화를 가능하게 하는 음성 대화 처리 원천 기술을 말한다. 자유 발 화형 음성 대화 처리 기술을 언어 학습에 적용하기 위해서는 학습자와의 자유로운 대화 상황에서 주제 및 문맥에 따라 문법 및 표현 오류를 파악하여 피드백해 줄 수 있어야 한다.

음성인식 기술은 상당히 발전된 기술로서, 기업에서는 음성인식 기술의 세 부적인 기능을 개발하여 차별화를 꾀할 것이다. 음성인식 기반의 인공지능 서비스 역시 여타 기술을 조망하고, 그 기술을 큐레이션 방식으로 잘 조합한 후 세부 도메인에 최적인 서비스를 구현해 내는 역할이 중요하다. 음성 기반 인터페이스는 오로지 음성을 통해 정보를 전달받기 때문에, 서비스를 설계할 때 보조 기기를 활용하여 사용성을 높이는 방법도 고려하면 좋다. 음성만을 사용했을 때의 단점을 보완하기 위해 음성 인터페이스와 그래픽 인터페이스(Graphic User Interface : GUI)를 함께 활용 하는 방법도 있다. 따라서 음성 인터페이스에 스크린의 조합과 같은 TV 조합도 좋은 활용 예가 될 수 있다.

국내외 기업들이 자연어 처리 기술과 접목된 인공지능 기반 음성인식 시스템을 적용하여 만든 다양한 서비스들이 있다. 기업들은 인공지능 음성인식을 활용하여 음성 명령으로 음악을 실행하거나, 뉴스, 날씨 등을 제공하고 있다. 홈IoT 상품들과 연결하여 음성으로 조명이나 현관문 등을 컨트롤 하는 등의 편리한 서비스를 제공하고 있다. 다양하고 많은 사용자가 이용하여 음성 대화 내용을 데이터로 축적하면, 이 축적된 빅데이터를 통해 딥러닝 학습으로 음성 인식률을 높일 수 있기 때문에, 사용자와 상호작용할 수 있는 단어와 문장이 다양해진다.

음성인식 기술 구현에 가장 핵심적인 입출력 장치만으로 이루어진 스피커는 데이터 수집 측면에서도 스마트폰이나 TV보다 훨씬 효율적이다. 애플社의 시리(Siri)나 구글社의 OK Google 기능은 사용자가 별도로 활성화시킬 때만 음성 데이터를 처리할 수 있다. 이에 반해 스피커는 사용 자가 언제든지 발화를 통해 사용할 수 있으며, 음성 데이터를 녹음하여 클라우드 서버에 축적할 수 있으므로, 음성인식 시스템 개선에 필요한 중요한 데이터를 빠른 속도로 수집할 수 있다. 또한 스마트폰에 비교하여 상대적으로 잡음이 적은 실내 환경에서 사용되는 스피커는 음성인식 기술의 활용 및 구현 에 적합하다. 글로벌 음성인식 스피커 보급의 확산에 따라 차세대 스마트 기기로 부상하고 있는 현 상황에서, 음성인식 스피커를 통한 인터페이스는 가장 자연스러운 인간과 기기 간의 상호작용 방식이며, 빠른 시일 내에 스마트폰, 스마트워치, Hearable기기 등에 도입될 것으로 전망된다.

음성인식 기술은 사용자의 대화 정보를 문자로 변환시켜서 컴퓨터가 데이터로 처리할 수 있도록 한다. 따라서 음성인식 기술은 컴퓨터와 사용자 간 대화 형 상호작용에 중요한 역할을 하고 있다. 이러한 기능은 상호작용형 대화 학습 시스템 구현을 위한 필수적인 지원이 된다. 초기 인공지능 음성인식 기능을 활용한 교육적 활용에 대한 연구는 주로 컴퓨터나 스마트기기 등의 활용을 중심으로 교실 환경에서 이루어졌다. 초기 컴퓨터와 사용자 간의 의사소통은 입출력 장치인 마우스나 키보드를 이용하여 이루어졌으나, 음성을 이용한 유의미한 의사소통 상호작용은 외국어 학습 연구자들에게 관심이 되어 왔다.

우리나라의 경우 인공지능 음성인식 기술은 교육의 여러 분야 중에서도 영어 교육 콘텐츠와 밀접히 연관되어 발전할 것으로 전망된다. 영어 교육은 소득의 양극화에 따른 격차가 가장 심한 과목으로 꼽힌다. 현재까지의 영어 교육은 읽기 교육에 편중되어 왔는데, 지금보다 훨씬 완성도가 높아진 인공지능 기반의 음성인식 시스템과 테크놀로지 번역 기술이 실현되었을 때, 학습자는 외국어를 배우기 위해 많은 시간을 투자할 필요가 없어진다. 따라서 새롭게 부각되고 있는 인공지능 음성인식 테크놀로지를 통해 대화형 상호작용성을 높임으로써 학습자의 영어 학습 성과 향상에 기여할 수 있을 것으로 기대한다.

저작자표시 비영리 변경금지

인공지능 음성인식의 개념 및 특징

1. 인공지능 음성인식의 개념

2. 인공지능 음성인식의 특징 및 장단점

3. 인공지능 음성인식 기술의 활용

티스토리툴바