웹&컴퓨팅

Google 사투리 번역을 소개합니다.

chihoon, An. (A.K.A 슈퍼스타) x2chi 2009. 1. 9. 11:06

개요

'Google 사투리 번역'이란 무엇인가요?

Google 사투리 번역은 사람이 직접 번역하는 대신 고도의 기계번역 기술을 활용해 제공되는 서비스입니다. Google KoreaR&D 센터는 여러 사투리 조합에 대한 통계 번역 시스템을 자체 개발했으며 현재 Google 번역을 통해 서비스 되고 있습니다. 예를 들어 번역하고자 하는 문장을 전라도 사투리로 넣으면, 해당 문장을 다양한 사투리로 번역하여 문서를 검색하고, 검색된 문서들은 다시 전라도 사투리로 변환되어 사용자에게 제공됩니다. Google 사투리 번역을 이용하면 다른 지역의 사투리를 모르더라도 불편 없이 모든 문서를 검색할 수 있습니다.

사투리 번역을 활용하고 있는 Google의 다른 서비스는 어떤 것들이 있나요?

Google 번역 아이콘

Google 번역에서 사투리 직접 번역이 가능합니다. 글상자 안에 문장을 입력한 후 원하시는 사투리 조합을 택하고 "번역하기" 버튼을 누르시면 우측에 해당 사투리로의 번역 결과가 나타납니다.

예시1: Google 사투리 번역 기술은 경상도 사투리에서 많이 나타나는 압축된 단어나 문장도 인지하여 번역해줍니다.

Screenshot

예시2: 전라도 사투리에서 많이 나타나는 단어의 모호성을 문맥에 맞춰 해석한 후 번역하여 보여줍니다.

Screenshot
Google 토크 아이콘

Google 토크에서도 사투리 번역 기능을 사용할 수 있습니다. Google 토크 계정 생성시 이용자가 구사하는 사투리의 지역 정보를 입력하면 됩니다. 제주도 사투리를 사용하는 친구와 채팅할 때에는 제주도 사투리를 자동 검출해서 이용자의 사투리로 자동 번역해주기 때문에 의사소통이 훨씬 원활해집니다.

Google 토크에서의 Google 사투리 번역 사용 예
Gmail 아이콘

Gmail에서도 사투리 번역 기능을 사용할 수 있습니다. 사투리로 작성된 메일을 받은 경우 "사투리 번역" 버튼을 누르면 메일의 내용이 자동으로 이용자의 지역 사투리로 변환됩니다. Google은 보다 나은 사투리 번역을 제공하기 위해 계속 노력하고 있습니다. 그러나 아무리 정교한 소프트웨어라도 원어민의 유창함을 따라갈 수는 없습니다. 사투리 번역 기능이 아직 완벽하지 않아 가끔 이해하기 어려운 경우가 발생할 수 있는데, 이 때는 해당 문장을 선택하면 원문을 보실 수 있습니다.

Gmail에서의 구글 사투리 사용 예

개발자 질의응답

작성자: 이충식 (구글 코리아 소프트웨어 엔지니어)
날짜: 2008년 4월 1일

개발자 사진

핵심기술에 대해 간단히 설명해 주시겠습니까?

기계번역에 관한 연구는 컴퓨터 개발 초창기부터 진행이 되어 왔습니다. 많은 시도가 있었지만 너무 많은 계산량이 필요했기 때문에 당시 기술로는 실제 시스템으로 구현하는데 어려움이 많았습니다. 그러나 구글의 거대한 네트웍 컴퓨팅 파워를 이용할 수 있게 되면서 희망이 생기기 시작했지요. 수없이 많은 컴퓨터를 서로 네트웍으로 연결하여 하나의 가상 컴퓨터처럼 사용할 수 있게 되면서 예전에는 상상할 수 없는 수준의 계산을 처리할 수 있게 되었습니다.

구글의 번역 기술은 이러한 강력한 하드웨어 및 네트워킹 기술을 기반으로 그 위에 통계 기반 인공지능 기술을 접목해서 구현이 되고 있습니다. 수십억 단어 수준의 상호 번역 데이터로부터 다양한 기법을 사용하여 문장, 구문, 단어간 번역 후보를 생성합니다. 사용하는 상호 번역 데이터가 많으면 많을수록, 그 품질이 좋으면 좋을수록 더욱 좋은 품질의 번역 후보들이 생성됩니다. 이렇게 생성된 번역 후보들을 결합하여 최종적으로 사용자가 입력한 문장을 가장 자연스러운 형태로 생성합니다. 이번에 개발한 사투리 번역 기술도 동일한 기술을 사용하고 있습니다.

사투리 번역 구현시 기술적으로 가장 어려웠던 점은 무엇입니까?

데이터를 모으는 작업이 가장 어려웠습니다. 두 언어 간의 번역기를 만들기 위해서는 방대한 양의 병렬 데이터 - 두 사투리 간의 번역 데이터 - 가 필요하기 때문에 사투리 번역 서비스를 개발하기로 결정한 후, 곧바로 대규모 병렬 데이터 수집에 착수했습니다. 현존하는 사투리 병렬 데이터가 많지 않을 것으로 보고 직접 인력을 투입하여 데이터를 생성하기로 결정했습니다. 각 지역별로 사투리에 능숙한 인력을 고용하여 수개월간의 작업 끝에 20억 단어 규모의 표준어, 전라도, 경상도, 충청도, 제주도, 강원도 사투리 데이터베이스를 구축했습니다.

형태소 분석 작업 역시 어려웠습니다. 오랜 세월을 거쳐서 변형을 거듭해 온 사투리는 표준어에 비하여 규칙을 따르지 않는 경우가 많았고, 다양한 형태소가 축약되어 말하기 편한 형태로 변화하는 경우가 많기 때문에 기존의 한국어 형태소 분석기로는 사투리 문장들을 정확하게 분석할 수 없는 어려움이 있었습니다. 그러나 수많은 시행착오 끝에 자동 규칙 생성기를 만들어 데이터로부터 규칙을 생성할 수 있게 되어, 이제는 어떤 사투리라도 데이터만 주어진다면 자동으로 해당 사투리에 대한 형태소 분석기를 만들 수 있게 되었습니다.

또한 사투리 지역 검출이 쉽지 않은 문제가 있었습니다. 번역할 임의의 문장이 주어졌을 때, 해당 문장이 어느 지역 사투리인지 자동으로 검출하는 기술이 필요한데 서로 다른 인코딩을 사용하는 언어였다면 인코딩 방식의 통계를 기초로 언어를 판별할 수 있는데 반하여, 사투리 번역에 있어서는 동일한 인코딩을 사용하기 때문에 좀 더 고차원의 특징을 관찰해야 하는 어려움이 있었습니다.

이 외에도 사투리 문장에서는 표준어보다 단어의 모호성이 심한 문제가 있었습니다. 단적인 예로 전라도와 충청도에서 자주 발생하는 사투리 단어인 "거시기"가 있습니다. 이러한 단어에 대한 모호성 해소를 위해 문맥 전체를 파악하는 기술 역시 쉽지 않았습니다.

번역 품질을 높이기 위해 계획하고 있는 기술은 무엇입니까?

앞서 말씀드렸듯이, 데이터를 쉽게 구할 수 없는 지역의 사투리 번역기를 만드는 일입니다. 소수 만이 사용하고 있는 사투리는 현실적으로 많은 데이터를 구할 수 없는 문제가 있습니다. 이를 해결하기 위해서 타 사투리를 통해서 번역하는 간접 번역 기술을 구현할 생각입니다. 예를 들어, 연변 사투리를 제주 사투리로 번역하려 하는 경우, 연변과 제주도는 지역적으로 멀리 떨어져 있어서 상호 번역물이 많이 존재하지 않습니다. 이런 경우 데이터가 많은 연변-서울, 서울-제주 사투리 데이터를 이용하여 간접 번역기를 구현할 수 있을 것으로 예상됩니다.

사투리 번역 기술의 미래를 어떻게 보십니까?

Google은 세상 모든 사람들이 언어장벽 없이 의사소통 하는 세계를 만들기 위해 계속 노력하고 있습니다. 이러한 꿈을 실현시키기 위해서 앞으로 얼마나 더 많은 시간과 노력이 필요할 지는 모르겠지만, 단기적으로는 사투리 번역기와 음성 인식을 결합하는 연구를 계속하여 궁극적으로 사투리 통역기를 만들 구상을 하고 있습니다.

본 제품은 구글코리아 R&D 센터 엔지니어들이 개발했습니다. R&D 센터의 채용정보를 원하시면 여기를 참조하시기 바랍니다.