매일같이 변화가 일어나는 점차 글로벌화되어가는 세계에서 자동 번역은 살아남는다는 것은 분명합니다. 기계 번역에 대한 모든 비웃음에도 불구하고 신경망(인간의 사고 과정을 모방하는 상호 연결된 컴퓨터 시스템)을 기반으로 하는 언어 앱은 속도와 비용 방면에서는 적수가 없습니다.
그러나, 현재의 알고리즘은 인간의 두뇌를 대체할 수 없고 특히 전문 번역사의 내용과 관용구에 대한 섬세함(직역하면 안되는 표현)은 따라가지 못하고 있습니다.
빠르고 무료지만 잘못된, 하지만 개선되고 있음
국제기구(유엔 등)와 다국어 기관(유럽 의회 등)의 영향으로 50년 넘게 방대한 양의 병렬 데이터가 축적되어 왔지만 오로지 21세기의 20년 동안(심층 신경망(DNN)의 등장)만 인간이 번역한 문서가 보다 실용적으로 사용될 수 있었습니다.
이러한 언어학적 보물창고를 이용하여 많은 주요 기술 업체들은 아래와 같은 무료 번역 플랫폼을 구축했습니다.
- 구글 번역: (133개의 언어) 매일 5억명 이상이 이용하며 영어, 스페인어, 아랍어, 러시아어, 포르투갈어, 인도네시아어가 가장 많이 사용되고 벵갈어, 아이티어, 타지크어는 가장 덜 이용됩니다.
- 마이크로소프트 Bing 번역: (103개의 언어) Bing, MS Office, Edge, Skype 및 Windows, Apple 및 Android 장치를 포함한 여러 제품에 통합된 Microsoft Cognitive Services의 일부인 클라우드 서비스입니다.
- DeepL: (28개의 언어) 이 엔진은 이제 유럽 기반에서 전 세계의 언어를 포함하도록 확장하고 있으며 Linguee 온라인 사전에 포함된 인간이 번역한 문장, 관용구 및 스니펫의 거대한 말뭉치에 기반을 두고 있습니다.
중점 확장
이러한 병렬 데이터의 디지털 금광에 대한 초기 의존성은 왜 핀란드어와 같은 유럽 언어를 포함하고 오로모어를 사용하는 4800만 에티오피아인을 제외하는 이유를 설명할 수 있습니다. 이 밖에 보즈푸리어 (5100만 명), 풀라어 (2400만 명), 실헤티어 (1100만 명), 키룬디어 (900만 명) 등이 자동번역의 기술적 발전에서 뒤쳐지고 있지만
번역 언어가 추가되고 기계 번역의 범위가 넓어지면서 이러한 상황이 변하고 있습니다. IARPA(미국 정보 서비스 연구 센터)의 프로그램 매니저인 Carl Rubino가 지적한 바와 같이, “경제 및 정치적 불안정, 코로나 바이러스 팬데믹, 기후 변화와 같은 오늘날 우리가 직면하고 있는 많은 도전들은 우리의 지구를 초월하며, 다국어적인 문제입니다.”
생명을 구하는 언어
이러한 도전은 종종 그것에 대처할 수 있는 준비가 되지 않은 소외된 지역사회에 가장 큰 부담을 주므로, 즉각적이면서도 정확한 의사소통은 빠르게 생사의 문제가 되고 있습니다. 인간 번역의 출력은 물리적 제약에 의해 제한되지만 컴퓨터는 초인적인 속도로 24시간 내내 작동할 수 있으며 문법적으로 불완전할 수 있지만 한시가 급한 상황에 목적에 적합한 분석, 보고서 및 지침의 번역을 중단 없이 생성할 수 있으므로
자동 번역의 가치는 이런 상황에서 진정으로 발휘됩니다. 생명과 생계가 위태로울 때 언어 및 문화적 장벽을 넘어 즉각적인 커뮤니케이션을 촉진함으로써, 이러한 알고리즘은 불리한 조건에서 살아남기 위해 싸우는 저기술 커뮤니티의 생존 가능성을 높여줍니다.
저자원 언어
수 백만명의 사람이 사용하지만 많은 언어들은 풍부한 구전 전통에도 불구하고 제한된 문서 자원을 제공합니다. 심층 신경망의 경우, 업계에서 알려진 바와 같이 이러한 저자원 언어는 다루기 어려운 반면 이러한 언어를 사용하는 사람들은 그들의 전통적인 기록이나 책이 부족함에도 불구하고 그들 사회의 생존을 보장할 수 있는 게시물과 블로그를 빠르게 올리고 있습니다.
역사적 관점에서, 이러한 문화 중 일부의 다국어 자원은 종종 신앙을 기반으로 한 문학, 특히 코란이나 성경과 같이 널리 번역된 성서들에 의해 제공되는 좁은 데이터셋으로 제한되었지만 현대에는 인쇄물, 시청각 미디어, 소셜 네트워크는 심층 신경망에 의해 분석되고 번역될 수 있는 단일 언어 데이터의 견고한 인벤토리를 구축하고 있습니다.
커뮤니티 안전망을 구축하는 소셜 네트워크
현대의 신경망 모델은 이제 음성 및 필기 단일 언어 소스로 사전 훈련될 수 있으며 신경 모델이 현재 번역 작업에 적용되고 있는 매개 변수를 통해 확립된 인간 언어의 특정 특징과 구조를 학습한다는 이론에서 기반했습니다.
전 세계 사용자들이 문화적 경계를 넘어 모국어로 꽤 반복적인 콘텐츠를 게시함에 따라, 신경 모델은 이제 사용자를 위해 텍스트를 요약할 수 있습니다. 이 앱들은 수십만 개의 단어(아마도 6편의 소설 정도의 분량)만으로도 충분할 정도의 병렬 데이터로 아주 적은 분량의 이중 언어 훈련정도만 필요합니다.
중점: 전 세계적으로 약 7,000개의 언어가 사용되는 가운데(그러나 그 중 약 4,000개만 글로 쓰임), 가상 번역 앱은 확장을 위한 광대한 분야가 열려있습니다. 의료에서 농업에 이르기까지, 자동 번역을 통해 언어적, 문화적 격차를 해소하는 것은 분명히 인류의 더 나은 미래로 가는 길이지만, 항상 한 개 이상의 언어에 능통할 뿐만 아니라 한 개 이상의 문화에 정통한 전문 번역가의 도움은 반드시 필요합니다.
Pixabay Yatheesh Gowda의 이미지