네이버가 번역기 서비스에 인공신경망 기술을 적용했다. 웹기반 무료서비스 ‘네이버 번역기’와 모바일기반 무료 앱 ‘파파고(papago)’의 번역 기능을 통해 써볼 수 있다. 네이버는 이를 위해 ‘네이버 신경망기계번역(N2MT)’이라는 자체개발 엔진을 만들었다.
관심사는 N2MT 엔진 탑재 전후의 번역품질 수준차다. 소설과 같은 문학작품을 얼마나 더 매끄럽게 처리할 수 있을까. 생활외국어나 비즈니스외국어는 특화된 상황과 용례에 따라 괜찮은 결과물을 보여줄 수 있지만 문학 쪽이라면 어려울 것이란 선입견이 있다.
비교해보기로 했다. 캐나다출신 SF소설가 코리 닥터로우의 2006년 발표작 영어 소설 ‘프린트범죄(Printcrime)’를 활용했다. 본문 일부를 한국어로 번역하되, 신구 번역 결과물을 대조해 아래 표로 정리했다. 표의 ‘파파고(NMT)’ 열이 새 엔진, ‘네이버(SMT)’ 열이 구 엔진 기반이다.
구분 | 영어 원문 | 파파고(NMT) | 네이버(SMT) | 내 번역 |
---|---|---|---|---|
제목, 출판일, 작가명 | Printcrime Copy this story. (originally published in Nature Magazine, January 2006) Cory Doctorow | 프린치크림 이 이야기를 복사하세요. (본래는 2006년 1월 네이쳐지에 출판됨) 코리 도토로 | Printcrime 복사해서 이 이야기. (원래 자연 Magazine에서 2006년 1월 출판되). 코리 Doctorow | 프린트범죄 이 이야기를 복사하십시오. (네이처 매거진 2006년 1월호에 먼저 실림) 코리 닥터로우 |
제1 문단 | The coppers smashed my father’s printer when I was eight. I remember the hot, cling-film-in-a-microwave smell of it, and Da’s look of ferocious concentration as he filled it with fresh goop, and the warm, fresh-baked feel of the objects that came out of it. | 내가 여덟살 때 아빠가 아버지의 프린터를 망가뜨렸다. 나는 그것의 매운 냄새가 나는 것을 기억한다. 그리고 그가 그것을 신선한 끈적거림으로 가득 채우고, 그것을 신선하고, 신선한 느낌을 가지고 나온 것이다. | 내가 8살 때 그 경찰관들은 아버지의 프린터 박살냈다. 나는 그것의 뜨거운,cling-film-in-a-microwave 냄새가 지독하고, 흉포한 농도의 다의 표정으로 그는 신선한 이 끈적끈적한 곳을 가득 채워서는 제공된 개체의 따뜻하고,fresh-baked 느낌을 기억한다.그것 | 경찰들이 아빠의 프린터를 부순 건 내가 8살때 일이다. 난 프린터의 열기, 그 전자레인지에 주방용랩을 씌워 돌렸을 때같은 냄새, 기기 안에 새 충전재를 채워넣을 때 아빠가 굉장히 열중하던 모습, 그리고 프린터에서 갓 구워진 물건이 나올 때의 느낌을 기억한다. |
제4 문단 | Da. What they did to him. When he was done, he looked like he’d been brawling with an entire rugby side. They brought him out the door and let the newsies get a good look at him as they tossed him in the car. All the while a spokesman told the world that my Da’s organized-crime bootlegging operation had been responsible for at least 20 million in contraband, and that my Da, the desperate villain, had resisted arrest. | 다 됐어요 그들이 그에게 한 짓이다. 그가 끝냈을 때, 그는 마치 럭비 경기장 전체를 뛰어 다니고 있었던 것처럼 보였다. 그들은 그를 내쫓고 신문 기자들이 그를 차 안에 던져 넣을 때 그를 보게 해 주었다. 항상 대변인은 전 세계의 오랑우탄들이 최소 2천만달러의 밀수 행위를 저질렀다고 말했고, 우리의 필사적인 악당이 체포에 저항한 적이 있다고 말했다. | 다. 그들은 그에게 무슨 말을 했다. 끝내고 나자 놈처럼 그는 럭비 측과의 싸움, 그가 보였다. 그들은 그들은 차에 던져 그 newsies 그를 잘 살펴봐 그가 문을 꺼냈습니다. 그동안 대변인은 말했다 세상은 내 다의 organized-crime 주류 밀매 업자 수술에 책임이 적어도 20만에서 밀수품,이고, 제 다, 폭한, 있었다.저항을 체포. | 아빠. 그들이 아빠에게 무슨 짓을 했던가. 아빠가 체포됐을 때 모습은 마치 혼자서 럭비팀 한 무리를 상대로 싸운듯 보였다. 그들은 아빠를 문 밖으로 끌어내 기자들이 잘 볼 수 있게 해준 뒤 차에 던져넣었다. 경찰 공보실장은 대외발표에서 아빠가 밀매품 최소 2천만개에 대한 책임이 있는 불법제조행위의 조직범죄를 저질렀으며 체포시 저항했던 흉악범이라고 말했다. |
제7 문단 | “Lanie,” he said, as he sat me down. “You’re a smart girl, I know that. You wouldn’t know where your old Da could get a printer and some goop?” | "라니,"라고 그가 나를 앉혀 놓고 말했다. "넌 똑똑한 소녀야. 나도 알아. 옛날 데이트가 어디서 왔는지 알지 못해?" | “Lanie,”그는 그는 날 앉혔다 말했다. “넌 똑똑한 소녀, 저도 알아. 어디에서 당신의 오래 된 다 프린터와 일불 이 끈적끈적한 곳을 얻을 수 있었습니다. 당신은 모를 거예요?”. | 아빠가 나를 앉히며 "레니"하고 말했다. "넌 똑똑한 아이지, 난 알아. 너는 늙은 애비가 프린터와 충전재를 구할 수 있는 곳이 어딘지 모르지?" |
제10 문단 | “Come here, Lanie, let me whisper in your ear. Let me tell you the thing that I decided while I spent ten years in lockup. Come here and listen to your stupid Da.” | "이리 와, 여보, 내가 네 귀에 대고 속삭여 줘. 내가 10년 동안 감금해 둔 동안 내가 결정한 것을 말해 줘. 이리 와서 네 바보 같은 소리 좀 들어 봐." | “이리 와봐, Lanie, 내가 여러분의 귀에 속삭이다. 나를 여러분은 제가 10년 교도소 보냈다 나는 결정하는 것을 알려 줄게요. 여기와 당신의 멍청한 다 듣기 와.”. | "레니야, 이리 오렴. 조용히 해 줄 얘기가 있단다. 감옥에서 10년을 지내면서 결심한 걸 말할게. 이리 와서 바보같은 애비 얘길 들어봐." |
몇 가지 드는 생각을 정리하면 다음과 같다.
- 파파고(NMT) 열의 새 엔진 기반 번역은 인간 번역(내 번역)에 비해 고유명사, 인명, 조어 처리에 취약하다. 결과물 중 ‘제목, 출판일, 작가명’ 행을 보면 ‘프린치크림’이나 ‘도토로’라는 부정확한 외래어표기를 만들어낸 게 눈에 띈다. 1문단의 주어 coppers를 빠뜨리거나 4문단의 Da가 화자의 ‘아빠’ 호칭이라는 것도 인지하지 못했다. 7문단에선 Da를 ‘데이트’라고 잘못 번역했고 10문단에선 딸을 부르는 이름 Lanie를 ‘여보’라고 오역했다.
- 네이버(SMT) 열의 기존 엔진 기반 번역은 인간 번역과 새 엔진 기반 번역에 비해 짧은 어구, 조어, 문장성분이 순차적으로 제시되지 않는 문단 처리에 취약하다. 소설 제목인 Printcrime, 1문단의 cling-film-in-a-microwave, fresh-baked, 4문단의 newsies, organized-crime, 7문단과 10문단의 Lanie가 결과물에서 아예 번역 처리되지 않았다. 또 4문단의 마지막 문장은 아예 완성되지도 않았고 7문단, 10문단의 주술호응관계는 내내 오락가락이다.
- 새 엔진 기반 번역은 낯선 고유명사를 억지로 번역하느라 이상한 결과를 내놓는다는 점을 제외하면 전반적으로 기존 번역기보다 수준 높은 품질을 보여 준다. 일반적인 용도가 아니라 소설 번역이라는 특수한 조건이 이런 차이를 좀 더 두드러지게 하는 듯하다. 다만 기존 번역기와 새 엔진 기반 번역기 화자의 일반적인 서술과 인용문에 따른 어투 차이, 발화 당사자와 직간접 인용 어구의 주체 등 엄밀한 주어 인식에는 한계를 보인다.
네이버는 2016년 12월 26일 번역기 서비스에 N2MT를 적용했다는 공지[1]에서 기존 일반 번역기에 적용된 엔진대비 번역 품질이 2배 이상 향상됐다고 주장했다. 당시 N2MT 번역 기능은 200자 미만 문장이나 어구만을 처리했는데 이 제한이 2017년 7월 19일 풀렸다. [2][3]
이제 N2MT 번역을 적용한 네이버 번역기와 파파고 앱에서 한 번에 최다 5천자를 처리한다. 구글, 마이크로소프트같은 다국적 기업의 번역기에 준하는 규모다. 장문의 온라인 뉴스 기사나 메일 내용뿐아니라 이 글에서처럼 짧은 소설 내용도 다루게 됐다.
위 표에서 파파고 열 뒤의 NMT 표기는 네이버 번역기의 새 엔진인 N2MT에 적용된 신경망기계번역(neural machine translation)의 약어다. 기존 네이버 번역기 열의 SMT 표기는 통계기반기계번역(statistical machine translation)의 약어다. 표는 한 마디로 네이버 번역기가 SMT방식을 쓸 때와 NMT방식을 쓸 때의 차이를 분석해 본 것이다. 다만 이 차이가 일반적인 SMT와 NMT의 특성차를 나타내는지는 모르겠다.
참조
[1] http://blog.naver.com/dic_master/220895280087
[2] http://blog.naver.com/dic_master/221054977258
[3] http://blog.naver.com/nv_papago/221053117147