현실 세계에서 문자 언어를 처리하는 인공지능(AI) 기술이 폭넓게 활용되고 있지만, 그에 못지 않게 음성언어와 가창 음성을 다루는 인공지능도 발전하고 있다. 최근 구글, 아마존, 애플, 마이크로소프트, 메타(전 페이스북) 등 글로벌 빅테크 기업과 네이버, 삼성, 엔씨소프트, LG, 카카오 등 국내 IT 기업, 이들과 협력하는 학계 연구원들이 모여 진행된 국제 학회 ‘인터스피치(INTERSPEECH)’를 통해 이러한 흐름을 엿볼 수 있었다.
인터스피치는 프랑스 국제스피치통신협회(ISCA)가 주최하는 음성 처리 분야 세계 최대 규모 학술대회로, 음성 AI 기술 연구 영역에서 권위를 인정받고 있다. 이에 세계 각국에서 주요 IT 기업과 학계 연구원들이 해마다 음성 언어 정보를 인식하고 단어, 문장 등 텍스트로 변환하는 음성인식(STT, Speech To Text) 기술과 주어진 텍스트를 분석하고 다양한 언어와 환경에 맞는 음성 언어를 생성하는 음성합성(TTS, Text To Speech) 기술을 연구한 성과를 발표한다. ISCA는 사람과 사람, 사람과 사물, 사물과 사물 사이에 음성으로 소통하기 위해 필요한 음성 신호 처리, 음성 인식 기술, 자연어 처리, 대화 인터페이스, 음성학, 언어학, 음성 합성, 보조 음성 치료 기술 등을 연구하는 학술 단체다. 학술대회 뿐 아니라 출판, 교육, 워크숍 등 다양한 활동을 벌이고 있다.
올해 제 23차 인터스피치로 개최된 ‘인터스피치 2022’가 지난 9월 18일부터 22일까지 인천 송도 컨벤시아 행사장에서 진행됐다. 한국음향학회와 한국음성학회는 지난 2020년 2월 인터스피치 2022의 인천 개최 유치에 성공했다고 밝힐 당시 이 자리에 “인간과 기계의 소통에 필요한 언어와 음성 과학의 폭넓은 이해를 통해 이를 빅데이터화한 알고리즘을 인식하는 AI 기술을 다루는 통합적 연구내용이 발표될 예정”이라면서 특히 개최지인 인천 송도에선 “AI 기술을 활용한 무인주행 차량, 로봇, 드론, 전자기기 등에서 일상의 언어로 기계들과 편리하게 소통하는 미래의 첨단기술을 선보인다”고 예고했다.
“음성버전 구글 나올 수도… 어떤 일이든 가능해질 수 있어”
연구원들이 본격적인 학술대회 연구 성과 발표를 시작하기에 앞서 9월 19일 오전에 인터스피치 2022 첫 기조강연이 진행됐다. 기조강연에서 음성 AI 기술 개발을 위한 과제와 현재 연구 동향이 제시됐다.
린샨 리 (Lin-shan Lee, 李琳山) 국립타이완대학교 컴퓨터과학정보공학과 교수가 ‘음성과 그것을 넘어설 의미론부터 자기지도학습까지’라는 제목의 기조강연을 맡았다. 그는 음성 신호와 의미론 분야 연구 영역이 융합되면 ‘음성버전 구글(Spoken Version of Google)’을 실현할 수 있을 것이라고 내다봤다. 리 교수는 학계에서 ‘음성정보 내용 검색(Spoken Content Retrieval)’이 그간 음성 연구원들이 집중해 온 분야 가운데 하나라고 했다. 그에 따르면 연구원들은 이 분야 중에서도 발화 정보를 담고 있는 오디오 데이터 세트에서 어떤 부분이 특정한 단어를 말하고 있는지 알아 내는 ‘음성정보 단어 탐지(spoken term detection)’ 기술을 발전시켜 왔다. 리 교수는 이에 대해 “구글은 인터넷 전체 텍스트를 읽고 이용자를 위해 인터넷 전체에 걸쳐 어떤 텍스트라도 찾아낸다”면서 “모든 텍스트는 음성으로 구현될 수 있기 때문에 기계는 인터넷의 모든 음성을 들을 수 있고, 따라서 기계는 이용자를 위해 인터넷에서 어떤 발화 정보든지 찾아낼 수 있다”고 말했다.
리 교수는 이어서 “우리에게 음성정보 내용 검색은 (인터넷에 존재하는 모든 음성 데이터에서 원하는 발화 정보를 찾아낼 수 있는) 구글의 음성버전을 의미한다”고 강조했다. 그는 음성버전 구글 서비스라고 불릴 만한 기술이 실현된다면 유튜브, 유다시티, 에드엑스, 코세라 등 수많은 음성 정보가 담긴 온라인 동영상 서비스 안에서 사람에게는 불가능하지만 기계는 할 수 있는 제대로 된 멀티미디어 내용 검색이 가능해질 것이라고 기대했다. 그는 “기계는 모든 멀티미디어 지식의 보고를 찾아 필요한 이용자에게 보여 줄 수 있다”며 “이것을 응용하면 음성정보 내용을 종합, 요약하고 질문에 답할 수 있는 개인화 맞춤 교육 환경을 제공할 수도 있다”고 예를 들었다.
음성버전 구글에 다가갈 수 있는 기술 연구 동향 가운데 하나로 성능이 뛰어난 ‘자동 음성 인식(ASR)’ AI 모델을 구현하는 딥러닝 모델 학습 기법의 발전 동향이 소개됐다. ASR 모델 학습용으로 구축된 오디오 데이터 세트 ‘리브리스피치(LibriSpeech)’를 활용한 최근 연구 사례를 보면, 2019년대에 지도학습(Supervised Learning) 방식으로 달성한 모델 성능을 능가하는 고효율 자기지도학습(Self-Supervised Learning) 기법이 발전하고 있다. 리브리스피치의 분류된 데이터를 100시간동안 지도학습 방식으로 학습한 2019년대 모델의 오류율은 5.8이었다. 이후 같은 방식으로 학습해 오류율을 3.1로 낮춘 ‘wav2vec 2.0’ 모델과 2.9로 낮춘 ‘휴버트(HuBERT)’ 모델이 2020년과 2021년에 등장해 주목받았다. 최근 같은 데이터를 장시간에 걸쳐 지도학습하는 게 아니라 단 10분동안 자기지도학습 방식으로 학습해 wav2vec 2.0는 4.8, 휴버트는 4.6의 오류율을 달성한 사례가 있다. 자기지도학습은 분류되지 않은 대규모 데이터를 자동 분류(labeling)하고 변형된 데이터로 모델을 사전학습(pretraining)한 다음 원래 해결하고자 한 문제(downstream task)를 처리하기 위해 이 모델을 미세조정(fine-tuning)하는 기법을 의미한다. 순수한 지도학습 방식으로 완성도 높은 모델을 개발할 수 있을 만큼 잘 분류된 데이터를 많이 확보하기 어려운 환경에서 수동 데이터 분류 작업이나 데이터 확보를 위한 부담을 줄이면서 지도학습에 근접한 효과를 이끌어내는 기법으로 주목받고 있다.
리 교수는 강연을 마무리하면서 음성의미론(Semantics of Speech) 분야에 미지의 영역이 많다고 지적하고, 이 분야가 음성버전 구글을 구현하기 위한 징검다리를 제공할 것이라고 전망했다. 강연 중반에 설명한 것처럼 음성언어 분야 자기지도학습 기술이 미분류 데이터로 사전학습하는 기법과 모든 근본적으로 해결해야 할 문제를 푸는 과정의 문턱을 전반적으로 낮춰 주고 있다고 진단했다. 이를 계기로 새로운 음성 AI 연구 기법이 다양하게 개화하고 있다고 평했다. 리 교수는 “현재 구현된 기술을 수년 전만 해도 우리는 전혀 예측하지 못했다”며 “우리는 몇 년 뒤 어떤 기술을 갖게 될 것인지도 전혀 예측할 수 없다”고 말했다. 그는 “우리에겐 어떤 일이든 가능할 수 있다고 본다”면서 ”지금은 음성언어(기술) 연구 세계에서 전례 없는 황금시대(the golden age)”라고 말했다. 그는 이전까지 도달하지 못한 뛰어난 심층학습 기술, 빅데이터, 강력한 기계(컴퓨터)와 산업이 조성돼 있다는 점을 짚으면서 학계에 “우리 모두 이 황금시대를 소중히 여기고 즐기자”고 덧붙였다.
스마트 가전과 모바일 기기 만드는 제조 기업의 음성 AI 연구
학술대회에서 음성기계번역(Spoken Machine Translation)을 주제로 제출된 논문 가운데 높은 성과를 인정받아 현장 구두 발표(On-site Oral)로 공개된 논문 내용이 눈길을 끌었다.
삼성전자 세트(스마트폰, 가전 등 완제품을 통칭) 사업 부문 선행 연구소인 ‘삼성리서치’ 소속 연구원들이 공동 저자로 이름을 올린 ‘동시통역을 위한 크로스모달 의사결정 정규화(Cross-Modal Decision Regularization for Simultaneous Speech Translation)’라는 주제의 논문도 그 중 하나였다. 동시통역 시스템은 부분적으로 입력된 데이터의 문장을 처리하는 동시에 통역된 문장을 출력해야 한다. 통역 품질을 높이기 위해서는 입력된 데이터를 언제 더 많이 읽고 언제 출력할 문장을 쓸 것인지 결정해야 하는데, 이 결정은 입력되는 언어와 통역한 결과로 출력되는 대상 언어의 구조, 입력된 음성 언어에 포함된 정보에 따라 달라진다. 삼성리서치 연구원들은 ‘동시 음성인식 번역(SimulST)’ 모델의 품질을 개선하기 위해 동시 크로스모달 의사결정 정규화(CMDR) 기법을 제안했다. 이는 입력된 음성 정보에 상응하는 텍스트 정보(text transcript)를 활용하면서 ‘동시 텍스트 대 텍스트 번역’ 작업을 수행하는 방법이었다. 이 기법을 통해 연구원들은 영어 대 독일어 동시통역 언어 모델에 다양한 지연 시간 정책을 적용해 기존 모델 대비 높은 성능을 달성했다고 밝혔다.
삼성리서치의 다른 연구원들이 진행한 ‘비(非)병렬 오디오 샘플을 이용한 타깃 음성 분리에 대한 전형적인 화자 간섭 손실’, 서울대 연구진과 함께 연구한 ‘대규모 미분류 음성정보 코퍼스를 이용한 저자원 음성합성용 전이학습 프레임워크’ 연구 논문도 현장 포스터 발표로 공개됐다. 유럽, 아시아 각국에서 근무하는 삼성전자, 삼성의 해외 R&D센터와 글로벌 AI센터 연구원들도 다양한 음성 AI 연구 주제 논문을 공개했다.
LG전자도 인터스피치 2022 학술대회에서 ‘사용자 정의 호출어 인식’ 관련 논문 두 편과 사람의 목소리를 구분하는 ‘화자 식별’ 등 개인화 서비스를 구현하기 위한 음성인식 기술 연구 논문을 발표했다. LG AI연구원, LG유플러스와 함께 통합 부스를 운영해 TV, 스마트 가전, 모빌리티 영역에 적용되는 AI 기반 플랫폼을 소개하고 생활가전에 적용된 음성인식 기능을 시연했다.
디지털 서비스를 위해 더 자연스러운 음성 AI 연구하는 기업들
네이버 연구원들은 네이버 본사 뿐 아니라 2017년 1월 네이버 연구조직에서 분사한 ‘네이버랩스’, 2017년 6월 네이버에 인수된 제록스리서치센터유럽(XRCE)이 이름을 바꾼 ‘네이버랩스유럽’, 일본·대만·태국·인도네시아 등에 입지가 큰 일본 자회사 ‘라인’의 연구원들과 함께 논문 열두 편을 발표했다. 네이버는 감정을 적용한 음성합성 표현, 화자인식 성능 개선, 음성인식 모델 학습 환경에서 시스템 메모리를 효율화하는 방법 등 서비스 실용화 가능성을 높이는 성과를 강조했다. 네이버는 AI 음성 비서를 탑재한 클로바 스마트스피커, TTS 기술을 활용한 더빙 서비스인 클로바 더빙, STT 기술을 활용한 고성능 AI 받아쓰기 앱 클로바 노트, 1인 가구 어르신 돌봄 서비스를 제공하는 AI 음성 상담사 클로바 케어콜 등을 운영하고 있다.
카카오에서는 지난 2019년 분사한 카카오엔터프라이즈 소속 연구원들이 이번 학술대회에서 논문 네 편으로 주요 연구 성과를 발표했다. 19일 구두 발표된 논문 중 하나인 ‘종단간 TTS를 위한 패스트스피치2 모델과 HiFi-적대생성망 협력 학습(JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech)’이 카카오엔터프라이즈 연구진의 논문 중 하나다. 이 논문에서 제안된 방법은 음향모델과 언어모델을 분리해 학습하는 기존과 달리 한꺼번에 두 모델을 학습하는 종단간 TTS 모델 개발 방법으로 고품질 음성 AI 구현 과정을 단순화할 수 있게 해 준다. 카카오엔터프라이즈의 카카오 i 커넥트 센터, 헤이카카오 등 서비스에 이 기법이 모두 적용돼 있다고 한다. 카카오엔터프라이즈 연구진들은 이밖에도 음성 인식 모델이 학습한 데이터보다 긴 음성도 성능 저하 없이 인식하도록 만드는 방법, AI가 대화 맥락을 더 잘 이해해 의미를 분석하거나 자연스러운 답변을 제시할 수 있도록 음성 표현에서 다양한 인간의 감정을 학습하는 방법, 비원어민 화자 영어 발음을 인식하고 평가해 원어민 발음과 얼마나 가까운지 알려 줌으로써 AI 기반 발음 평가 기능을 구현하고 개인화된 AI 학습 리포트를 제공하는 영어회화 서비스에 응용한 방법 등을 소개했다.
온라인 게임 회사로 유명한 엔씨소프트에서는 AI 센터 내 여러 부서 가운데 음성 AI 기술을 연구하는 ‘스피치 AI 랩’ 연구원들이 논문 세 편을 공개했다.
학술대회 첫 기조강연을 진행한 날이자 행사 2일차인 19일에 ‘사전 학습된 뉴럴 보코더를 이용한 새로운 음색 보존 피치 조절 방식(Enhancement of Pitch Controllability using Timbre-Preserving Pitch Augmentation in FastPitch)’ 연구 발표가 진행됐다. 이는 추가적인 녹음 없이 ‘패스트피치’라는 TTS 모델의 음높이 조절력과 발화 품질을 높일 수 있는 방법을 제안했다. 같은 날 오후에는 ‘계층적 다중 스케일 구조의 변량 자동 인코더 기반 TTS(Hierarchical and Multi-scale Variational Autoencoder for Diverse and Natural Speech Synthesis)’ 연구도 소개됐다. 이 연구는 AI 모델 합성음 표현력을 다양화해 사람이 더욱 자연스럽다고 인식할 수 있게 만드는 방법을 다루고 있다.
4일차인 21일 발표된 ‘적대적 다중 작업 학습 기반 가창 음성 합성 모델: 음색 표현과 피치 표현을 효과적으로 분리 모델링하기 위한 연구(Adversarial Multi-Task Learning for Disentangling Timbre and Pitch in Singing Voice Synthesis)’ 연구는 선행 연구의 가사 전달력 개선 모델(N-Singer)보다 더 자연스러운 표현을 할 수 있도록 가창 음성 합성 모델 성능을 개선하는 방법을 제안했다. 가창 음성 합성 모델 성능을 개선하기 위해 음색과 음높이 특징을 분리해 다루는 적대생성망(GAN) 기반 다중 작업 학습으로 ‘멜-스펙트로그램’을 예측하도록 했다. 멜-스펙트로그램은 음향신호의 주파수와 강도를 상대적 단위(멜)로 변환해 시계열 그래프(스펙트로그램)로 나타낸 것이다.
—
솔트룩스 네이버블로그 ‘인공지능 인사이트’ 필진으로서 작성한 아홉 번째 정기 원고. 221102 솔트룩스 네이버블로그 포스팅으로 게재됨. 230125 개인 블로그에 원문 비공개로 올림. 230930 공개로 전환.