음성인식에서 음성합성으로, 더욱 인간적인 AI로 나아가다

▲ 대학원 연구실 '남즈'에서 남호성 교수는 음성인식기술과 합성 등 여러 응용분야 연구에 몰두하고 있다.

아이폰의 ‘시리’, 삼성의 ‘빅스비’와 같은 음성 서비스는 딥러닝의 기술과 함께 빠른 성장을 거듭하고 있지만, 아직도 다양한 사람들의 풍부한 감성을 가진 목소리로 말을 해주지는 못하고 있다. 하지만 최신의 음성합성기술을 활용하면 시리도, 빅스비도 앵커 손석희와 배우 김상중의 중저음을 쉽게 따라할 수 있다. 본교 영어영문학과에서 음성인식과 합성 기술을 연구하고 성과를 낸 연구팀이 있다. 연구팀 남즈(NAMZ)의 수장이자 미국 예일대학교 해스킨스 연구소(Haskins Laboratories) 시니어 과학자, 남호성(문과대 영어영문학과) 교수를 만나 음성합성기술의 발전과 미래에 관한 얘기를 들어봤다.

- 먼저 언어공학자가 된 개인적인 배경이 궁금하다

“저는 학부 ‘부적응자’였어요. 평점 2점대를 전전하다가 2학년 1학기, 우연찮게 듣게 된 영어음성학 강의에 매료됐죠. 그 길로 저는 음성학에 대해 공부하고 싶어 대학원에 진학했습니다. 당시 한국통신에서 대용량 음성인식 개발을 처음 시작했는데, 대학원 지도 교수님이셨던 김기호(문과대 영어영문학과) 교수님을 포함한 음성학 전문가와 컴퓨터 공학 전문가와 함께하는 컨소시엄의 조교로 참여했습니다. 그런데 실제 개발 과정에서 함께 일하던 기술자들이 음성학자들을 비(非)전문가 취급하더라고요. 당시 기술자들은 언어학자들을 그저 수작업이나 하는 사람 정도로 봤어요. 그들은 언어학자들이 모르는 ‘코딩’기술을 아는 사람들이었거든요. 그래서 전문성을 인정받기 위해선 코딩 기술을 배워야겠다고 결론 내렸고, 언어공학도의 길을 걷게 됐습니다.”

- 남즈(NAMZ)는 어떤 팀인가

“2014년 고려대학교 영어영문학과 조교수로 부임했어요. 교수라면 대학원을 잘 운영하는 연구 측면과 학부 졸업생들이 사회에 나가서 적응하도록 돕는 교육 측면에 힘써야 한다는 게 제 생각이었죠. 하지만 저조한 대학원 진학률과 학부생 취업률을 보며 교수로서 맥이 빠졌고, 제가 이 학생들에게 어떤 걸 해줄 수 있는지 혼란스러웠어요. 이상과 너무나도 먼 현실을 깨달았죠. 현실을 깨닫고 교수로서 연구와 교육의 사명을 어떻게 잘 수행할 것인가를 고민한 산물이 제 대학원 연구팀(현재 박사과정 4명, 석사과정 6명)이에요. 그 이름이 ‘남즈’입니다.”

- 남즈가 개발한 음성인식 시스템의 성능을 자평한다면

“지금 학계에서 개발한 음성인식 시스템 중에서 남즈가 개발한 것이 가장 성능이 좋다고 자부합니다. 겉으로 보기엔 영어영문학과로 구성된 연구팀이라고 과소평가하는 사람들도 있는데, 우리는 국내 대학을 통틀어 음성인식, 음성합성 분야에서 국내 최고 수준입니다. 음성인식기의 성능을 높이기 위해선 매우 큰 규모의 음성 데이터가 필요합니다. 음성을 받아쓰는(dictation) 기계를 만들기 위해선 최소 100시간 이상의 또박또박한 음성파일과 그에 해당하는 텍스트 파일이 필요하기 때문이에요. 남즈는 4500시간의 음성 데이터를 보유하고 있는데요, 이는 대학 수준의 연구팀으로서 최고의 양입니다. 또한 남즈는 현재 국가가 보유하고 있는 1억 어절의 한국어 *말뭉치(corpus, 말뭉치: 어절 단위의 매우 많은 양의 음성 데이터)보다 약 5배 많은 5억 어절을 보유하고 있습니다.”

- 음성인식 시스템을 기반으로 개발한 프로그램은

“이러한 방대한 데이터와 컴퓨팅 파워를 기반으로 여러 실용적 프로그램들을 개발했습니다. 그 중 하나를 소개하면, 발화한 음성에 대해 그 조음을 시각화하는 프로그램이에요. 특정 발음을 할 때 혀의 움직임을 시각적으로 보여주는 것이죠. 이 프로그램은 특히 발음에 문제가 있는 사람들에게 큰 도움이 될 수 있습니다. 시각화된 혀의 움직임으로 구체적인 교정이 가능해지기 때문이죠.

또 다른 하나는, 특정 영어 발음을 하면 이를 인식하고 점수를 매기는 프로그램입니다, 이 프로그램은 HMM(Hidden Marcov Model, 은닉마르코브모델) 기반 음성인식 시스템의 원리를 이용합니다. 발화된 음성을 자모음 개별 소리로 분리한 뒤 각각에 대해 확률기반 점수를 부여하는 방식이에요. 예를 들어 영어를 배우는 사용자가 ‘about’이라고 말하면 기계가 그를 인식하고 발음을 쪼개서 네이티브 발음과 비교해 몇 점짜리 발음인지 평가해주는 것입니다. 이 프로그램은 영어교육적 전망을 인정받아 상품화에 대한 문의가 쇄도하고 있습니다.“

- 최근 연구되고 있는 음성합성기술은 무엇인가

“음성합성이란 컴퓨터를 이용해 사람의 말소리를 인위적으로 합성하는 것을 말해요. 종전의 음성합성은 한 성우를 데려와 몇십 시간씩 계속해서 책을 읽히고 이 음성 데이터를 음소 이하의 단위로 잘라 이어 붙이는 방식으로 이뤄졌습니다. 이 방식은 다른 목소리로 바꾸려면 같은 과정을 다시 반복해야 하고, 짧게 잘라낸 음소를 이어붙이다 보니 말이 끊겨서 기계음처럼 들린다는 단점이 있었어요. 이를 완전히 혁신한 게 구글의 최첨단 인공지능 방식 ‘타코트론(tacotron)’입니다. 타코트론은 기존 음성합성기와 달리 음성과 해당 텍스트 전사(transcript)만 있으면 합성기가 스스로 딥러닝 훈련을 통해 음성합성을 해내는 프로그램이에요. 이 기술을 활용하면 사람이 들어도 기계로 느껴지지 않을 정도의 기계음이 구현될 수 있고, 하나의 텍스트를 다양한 사람의 목소리로 쉽게 바꿀 수 있게 됩니다.”

- 음성합성기술은 어떻게 활용될 수 있나

“음성합성기술인 타코트론을 이용하면 하나의 목소리로 그 특성을 자유자재로 변환할 수 있어요. 남즈에선 타코트론을 응용해 목소리 복제(voice cloning)를 가능케 하는 연구를 하고 있습니다. 목소리 복제기술은 음성의 특정 요소, 예를 들어 억양, 음색 등에 대한 정보를 따로 데이터로 처리해 원하는 목소리에 필터 씌우듯 입히는 기술입니다. 서울사람의 목소리에 충청도 사투리 데이터를 적용시키면 같은 목소리로 자연스러운 충청도 사투리를 하는 음성을 만들 수 있는 식인 것이죠.”

- 음성합성기술을 어떻게 전망하나

“음성합성기술은 음성인식기술과 함께 응용돼 인공지능 로봇과의 대화를 진짜 사람과의 대화처럼 구현하도록 만들 거예요. 인공지능 로봇과의 원활한 의사소통을 목표로 한다면 우리가 뱉어내는 발화는 텍스트의 형태로 바뀌어야 하고, 로봇이 이야기 할 때도 말하고자 하는 텍스트가 음성으로 변환(음성합성) 돼야 하는데, 그게 가능해지면 로봇의 음성은 이젠 기계음이 아닌 ‘누군가의 목소리’로 들리게 될 거예요. 이런 기술이 보편화되는 것은 시간문제지만, 여전히 이 분야에 충분한 전문인력 공급이 필요하죠. 그래서 언어학, 심리학, 물리학, 수학, 공학 지식을 모두 갖춘 후속세대 전문가를 양성하는 것이 제 목표입니다. 인문계의 특별한 인재들과 ‘인간 중심의 AI’를 만드는데 이바지하려 합니다.”

글·사진｜변은민 기자 victor@

기자의 다른기사

상단영역

본문영역

음성인식에서 음성합성으로, 더욱 인간적인 AI로 나아가다

언어 공학자 남호성(문과대 영어영문학과) 교수 인터뷰

개의 댓글

댓글 정렬

내 댓글 모음