구글·네이버·MS 번역기에 영어소설 번역을 또 시켜봤다

신경망 기계번역으로 영어소설 번역하기 2탄이다.

앞서 네이버가 신경망 기계번역 기술을 적용한 모바일 통번역 앱 파파고(papago)를 선보였고, 이후 같은 기술을 웹기반 번역서비스에 제한적으로 담았다. 구글도 지난해 11월 번역서비스에 신경망 기계번역 기술을 적용했다고 밝혔다.

먼젓번 포스팅(https://mincheol.im/48)에서 구글, 네이버, 마이크로소프트 번역서비스를 대조했다. SF소설가 코리 닥터로우의 단편작 ‘프린트범죄’ 원문 중 임의로 선택한 4개 단락을 각 서비스가 자동번역한 결과를 봤다. 구글 쪽 결과물이 나머지 서비스에 비해 월등했다.

당연했다. 한국어와 영어 언어쌍간 신경망 기계번역을 구글만 지원하고 있었으니까. 당시 파파고의 신경망 기계번역은 네이버 공식 번역기가 아니라 ‘랩스페이스’ 브랜드로 시범서비스 중이었고 마이크로소프트 빙은 아예 한국어 신경망 기계번역이 없었다.

최근 마이크로소프트가 루이스(LUIS)라는 신경망 기계번역 서비스에 한국어 지원을 추가했다. 지난해 11월 공개된 이래 영어, 독일어, 아랍어, 중국어, 일본어를 포함한 10가지 언어를 지원해 왔다. 한국어는 마이크로소프트 신경망 기계번역 지원대상이 된 11번째 언어다.

이제 구글, 네이버, 마이크로소프트가 모두 웹기반 번역서비스에서 신경망 기계번역을 지원한다. 한국어와 영어 언어쌍 번역을 실험할 수 있는 조건이 갖춰졌다. 지난해 11월 심심해서 시작한 영어 소설 한국어 자동번역 품질 테스트를 동일하게 다시 진행했다.

이번 실험에는 5개 자동번역을 썼다. 구글은 원래 신경망기계번역만 있으니 단독출전이다. 네이버는 일반 번역과 시범 서비스중인 신경망 기계번역, 2가지다. 마이크로소프트도 기존 빙 번역과 루이스 신경망 기계번역, 2가지다.

영어 원문은 기존과 동일한 문단을 다시 썼다. 이를 5개 자동번역에 넣고 돌린 결과, 그리고 각 문단을 내가 스스로 번역한 결과까지 대조해 아래에 표로 정리했다. 다만 네이버 신경망 기계번역은 200자 입력 제한이 있어 일부 문단 번역이 불가능했다는 점을 언급해 둔다.

구분영어 원문구글(NMT)네이버(SMT)파파고(NMT)빙번역기(SMT)MS번역기(NMT)내 번역
제목,출판일,작가명Printcrime
Copy this story.
(originally published in Nature Magazine, January 2006)
Cory Doctorow
인쇄물
이 이야기를 복사하십시오.
( 원래 Nature Magazine, 2006 년 1 월 )
코리 닥터
Printcrime
복사해서 이 이야기.
(원래 출판되자연 Magazine, 2006년 1월에서.)
코리 Doctorow
" Printcrime
이 이야기를 복사해 주세요.
(원래 2006년 1월 네이쳐지에 출판됨)
코리 Doctorow
Printcrime
이 이야기를 복사 합니다.
(자연 잡지, 2006 년 1 월에서에서 원래 간행 해)
코리 닥터
"판화이 이야기 복사.
(본래 잡지, 2006 년 1 월에서 간행 했다)
코리 닥터 "
프린트범죄
이 이야기를 복사하십시오.
(네이처 매거진 2006년 1월호에 먼저 실림)
코리 닥터로우
제1문단The coppers smashed my father’s printer when I was eight. I remember the hot, cling-film-in-a-microwave smell of it, and Da’s look of ferocious concentration as he filled it with fresh goop, and the warm, fresh-baked feel of the objects that came out of it.경찰들은 내가 8 살 때 아버지의 프린터를 때렸다. 나는 뜨겁고 끈적 끈적한 마이크로파 냄새가 나는 것을 기억한다. Da는 맹렬한 집중과 신선한 덩어리로 가득 찬 짙은 농축 모습을 보았다.내가 8살 때 그 경찰관들은 아버지의 프린터 박살냈다. 나는 그것의 뜨거운,cling-film-in-a-microwave 냄새가 지독하고, 흉포한 농도의 다의 표정으로 그는 신선한 이 끈적끈적한 곳을 가득 채워서는 제공된 개체의 따뜻하고,fresh-baked 느낌을 기억한다.그것여덟살 때 페니 동전이 아버지의 프린터를 망가뜨렸다. 저는 뜨거운 향기가 나는 것을 기억하고 있습니다. 그는 그것을 신선한 재료로 가득 채웠습니다. 그리고 그것을 신선한 재료로 가득 채웠습니다.*


*파파고 200자 제한으로 문장 나눠 번역
경찰도 내가 여덟 살 때 아버지의 프린터를 박살. 난 그 신선한 goop와 나온 개체의 따뜻한, 신선한 구운 느낌 가득, 그것의 뜨거운, 집착-영화-에서-한-전자 레인지 냄새와 사나운 농도의 다의 모습 기억.내가 8 살 때 구리는 아버지의 프린터를 박살. 나는 그것의 뜨거운, 집착-필름-전자 렌지 냄새, 그리고 그는 신선한 goog에 그것을 가득으로 서 사나운 농도의 검사의 모습을 기억 하 고, 신선한 구운 그 밖으로 나온 개체의 느낌.경찰들이 아빠의 프린터를 부순 건 내가 8살때 일이다. 난 프린터의 열기, 그 전자레인지에 주방용랩을 씌워 돌렸을 때같은 냄새, 기기 안에 새 충전재를 채워넣을 때 아빠가 굉장히 열중하던 모습, 그리고 프린터에서 갓 구워진 물건이 나올 때의 느낌을 기억한다.
제4문단Da. What they did to him. When he was done, he looked like he’d been brawling with an entire rugby side. They brought him out the door and let the newsies get a good look at him as they tossed him in the car. All the while a spokesman told the world that my Da’s organized-crime bootlegging operation had been responsible for at least 20 million in contraband, and that my Da, the desperate villain, had resisted arrest.Da. 그들이 그에게 한 짓. 그가 끝났을 때, 그는 럭비 쪽 전체와 싸우고있는 것처럼 보였습니다. 그들은 그를 데리고 나와 차량에 던져 넣은 소식통에게 잘 보게했습니다. 대변인은 내 Da의 조직 범죄 침략 작전이 적어도 2 천만명의 밀수품에 대한 책임이 있었고, 절망적 인 악당 인 내 Da가 체포에 저항했다는 것을 세계에 전했다.다. 그들은 그에게 무슨 말을 했다. 끝내고 나자 놈처럼 그는 럭비 측과의 싸움, 그가 보였다. 그들은 그들은 차에 던져 그 newsies 그를 잘 살펴봐 그가 문을 꺼냈습니다. 그동안 대변인은 말했다 세상은 내 다의 organized-crime 주류 밀매 업자 수술에 책임이 적어도 20만에서 밀수품,이고, 제 다, 폭한, 있었다.저항을 체포.다 됐어 그들이 그에게 한 짓은 무엇일까요? 그가 완성되었을 때, 그는 럭비 경기장 전체를 누비고 다녔던 것처럼 보였다. 그들은 그를 문밖으로 데리고 나가서 그를 차 안에 던져 넣을 때 그들이 그를 보게 해 주었다. All the while a spokesman told the world that my Da’s organized-crime bootlegging operation had been responsible for at least 20 million in contraband, and that my Da, the desperate villain, had resisted arrest.*
*파파고 200자 제한으로 번역 불가능
다입니다. 그들은 그에 게 않았다. 그가 완료 되었을 때 그는 그가 전체 럭비 측을 가진 싸움 했다 처럼 보였다. 그들은 문 밖으로 데 려 고 그들은 차에 그를 던져 서 그에서 좋은 모습을 얻을 newsies 하자. 그동안 대변인은 말했다 세계 내 다 조직 범죄 bootlegging 작업에서 밀수 품, 적어도 20 백만에 책임 있었다 내 다, 절망적 인 악당, 체포에 저항 했다.다. 그들은 그에 게 무슨 짓을 했는지. 그가 완료 했을 때, 그는 전체 럭비 측면과 함께 싸움이 있 었 처럼 보였다. 그들은 문을 밖으로 데리고 그들은 차에서 그를 빼앗은 그에 게 좋은 모습을 얻을 하자. 모든 대변인은 내 검찰의 조직 범죄 밀매 작업에서 적어도 20만 밀수 품에 대 한 책임을 지지 했다, 그리고 내 da, 절망적 인 악당, 체포 저항 했다 세상을 말한 동안.아빠. 그들이 아빠에게 무슨 짓을 했던가. 아빠가 체포됐을 때 모습은 마치 혼자서 럭비팀 한 무리를 상대로 싸운듯 보였다. 그들은 아빠를 문 밖으로 끌어내 기자들이 잘 볼 수 있게 해준 뒤 차에 던져넣었다. 경찰 공보실장은 대외발표에서 아빠가 밀매품 최소 2천만개에 대한 책임이 있는 불법제조행위의 조직범죄를 저질렀으며 체포시 저항했던 흉악범이라고 말했다.
제7문단“Lanie,” he said, as he sat me down. “You’re a smart girl, I know that. You wouldn’t know where your old Da could get a printer and some goop?”"Lanie,"그는 나를 앉히고 말했다. "너 똑똑한 여자 야. 나도 알아. 당신은 당신의 오래된 Da가 프린터와 어떤 깡충 뛰기를 얻을 수있는 곳을 알지 못할 것입니다. "“Lanie,”그는 그는 날 앉혔다 말했다. “넌 똑똑한 소녀, 저도 알아. 어디에서 당신의 오래 된 다 프린터와 일불 이 끈적끈적한 곳을 얻을 수 있었습니다. 당신은 모를 거예요?”.그가 앉아 있으니 그가 말했다. "넌 영리한 소녀야. 그건 알아. 네가 어떻게 낡은 통을 가지고 있는지 알지 못할 거야.""너는 언제 어디서 프린트를 할 수 있을까?""깊숙히," 그는 말했다, 그는 나를 앉. "스마트 여자 야, 나도 알아. 당신은 모르겠다 프린터와 일부 goop 당신의 오래 된 다 얻을 수는 어디 "?그는 나를 내려 앉 았다 "란 니," 그는 말했다. "당신은 똑똑한 여 자가 있어, 나는 그것을 알고 있다. 당신은 어디에 오래 된 검사가 프린터와 일부 goog에 얻을 수 있을 거 야? "아빠가 나를 앉히며 "레니"하고 말했다. "넌 똑똑한 아이지, 난 알아. 너는 늙은 애비가 프린터와 충전재를 구할 수 있는 곳이 어딘지 모르지?"
제10문단“Come here, Lanie, let me whisper in your ear. Let me tell you the thing that I decided while I spent ten years in lockup. Come here and listen to your stupid Da.”"이리와, 래니, 네 귀에 속삭이게 해줘. 내가 잠자고있는 동안 10 년 동안 내가 결정한 것을 말해 줄께. 이리 와서 너의 바보 같은 말을 들어라. "“이리 와봐, Lanie, 내가 여러분의 귀에 속삭이다. 나를 여러분은 제가 10년 교도소 보냈다 나는 결정하는 것을 알려 줄게요. 여기와 당신의 멍청한 다 듣기 와.”."이리 와 봐, Lanie아, 내가 귓속말로 속삭여 봐. 내가 10년 동안 갇혀 있는 동안 내가 결정해 줄게.""와 서 여기, 깊숙히, 하자 귀에 속 삭 임. 록 업에 10 년을 보냈다 하는 동안 결정 하는 것을 말해 보자. 여기와 서 당신의 바보 다 들어. ""여기에, 라 니, 나를 귀 속에서 귓속말을 보자. 내가 유치 장 10 년 동안 내가 결정 하는 것은 당신에 게 말해 보자. 여기와 서 당신의 멍 청 한 다 들어 봐."레니야, 이리 오렴. 조용히 해 줄 얘기가 있단다. 감옥에서 10년을 지내면서 결심한 걸 말할게. 이리 와서 바보같은 애비 얘길 들어봐."

위 표로 정리한 내용에서 발견한 점을 몇 가지 짚으면 이렇다. (표에서 번역기 이름을 ‘파파고’라고 쓴 건 편의상이고 실제로는 네이버 웹 자동번역기 인터페이스에서 신경망 기계번역 기능이 동작하도록 200자 이내로 문자를 입력해 사용한 결과다.)

1. 네이버와 마이크로소프트의 통계기반번역 결과물은 4개월전과 차이가 없거나 미미하다. 뭐 이건 어쩌면 당연한 일.

2. 구글 신경망 기계번역 결과물이 미묘하게 바뀌었다. 흥미로운 점은, 품질이 개선됐다고 보기 어렵다는 것.

3. 네이버 통계번역과 신경망기계번역을 견줘보면 부분적으로 두 알고리즘의 장단점이 느껴진다. 신경망기계번역은 어구나 문장에서 낱말 배열의 순서는 자연스러운 반면, 원문 의미를 제대로 재현하지 못하는 경향을 보인다. 통계번역은 신경망기계번역 결과물에 비해 문장의 주어를 정확히 제시하는 편이지만, 어순이 엉망이고 중요한 어휘를 아주 엉뚱한 뜻으로 해석한다.

4. 이런 경향은 MS의 빙번역과 루이스 신경망기계번역 결과물을 놓고 봐도 비슷해 보인다. 제목, 출판일, 작가명 번역부분에서 소설제목을 제대로 한국말로 표현한 번역기는 하나도 없었지만, 루이스 신경망기계번역은 ‘판화’라는, 아주 이상한 결과를 제시했다. 그러나 출판일과 작가명 쪽에서는 빙의 통계기반 번역보다 나은 점도 보인다. 같은 현상이 나머지에도 계속된다.

5. 앞서 구글 혼자 신경망기계번역 기술을 적용해 품질이 그나마 괜찮아 보였는데, 이번에 세 회사의 신경망기계번역 결과물끼리만 견줘보니 일장일단이 보인다. 결과물 문장의 완성도, 자연스러움은 구글과 네이버가 비슷하게 괜찮다. 마이크로소프트 루이스는 아직 한국어스럽지 않은 표현이 너무 많다.

6. 또 구글과 네이버간 이런 차이는 있다. 제7 제10 문단처럼 기계입장에서 주어가 애매한 문장을 원문 의미에 가깝게 번역해내는 건 구글 쪽이다. 신경망기계번역이 주어진 단서가 많을수록 수준높은 결과물을 줄 수 있다면, 네이버 기술은 200자 제한이 상당한 약점으로 작용하고 있는 듯하다.

7. 흥미로운 점 하나는 제1문단의 번역결과인데 The coppers라는 원어를 구글은 경찰들이라고 제대로 옮겼고, 네이버와 마이크로소프트 신경망 기계번역은 각각 페니동전과 구리 라는 엉뚱한 단어로 치환했다. 그런데 이 둘의 통계기반번역에선 경찰관들, 경찰 이렇게 어느정도 맞게 옮겼다. 역으로 곱씹어보면 구글이 신경망기계번역 결과물을 기존 통계기반번역으로 보정하고 있지 않을까 싶은 대목이다.

8. 제4문단을 보면 MS 빙번역은 화자가 아빠를 가리키는 Da 라는 명사를 전혀 이해하지 못했는데 루이스는 그 용도를 알아차린 것같다. 비슷하게, 제7문단과 10문단을 보면 화자의 이름인 Lanie를 완전 엉망으로 옮겼는데 (사람 이름을 ‘깊숙히’가 뭔가 대체) 루이스는 일관성은 없지만(‘란 니’, 또는 ‘라 니’) 적어도 그게 의역이 아니라 음역을 해야 할 대상이라는 건 깨우친 듯하다.

9. 까다로웠을 부분들. 제1문단에서 아버지의 프린터를 ‘때렸다’는 구글보다 ‘박살’냈다는 마이크로소프트, 그보다는 ‘망가뜨렸다’고 서술형까지 적용한 네이버가 가장 나았다. 이어지는, 프린터 작동으로 야기되는 공감각적 묘사를 자연스럽게 옮긴 건 구글-네이버-마이크로소프트 순이지만 셋 다 별로다.

10. 또 까다로웠을 부분들. 제4문단에서 아빠가 체포됐음을 뜻하는 done을 여전히 제대로 옮긴 데가 없다. 제7문단의 아빠와 딸의 대화에서 문장 속 주어와 화자의 구별을 제대로 해낸 건 구글이지만, 자연스럽게 한국말로 표현한 건 네이버 쪽이다. 다만 제10문단에서 이 평가가 서로 맞바뀌는 결과를 보인다. 마이크로소프트 루이스는 7문단이고 10문단이고 아직 미숙하다.

간단히 결론을 내리면, 총론은 지난번 포스팅과 크게 다르지 않다. 여전히 등장인물과 화자, 독자간의 시점에 따른 관계를 기계는 잘 이해하지 못한다. 일상회화에서 쓰지 않는 조어나 은유적 표현도 매끄럽게 소화하진 못하는데, 신경망기계번역의 힘으로 어느정도 극복할 가능성이 보이긴 한다.

170402 옮김. 230616 본문 링크 수정.