맞춤형 신경망 기계 번역 개발 과정
모든 환경은 서로 다릅니다. 첫 번째 단계는 고객의 콘텐츠와 목적을 이해하는 것입니다. 따라서 고객 콘텐츠의 구체적인 니즈는 무엇이고, 어떤 유형의 작업 유형을 따르는 것이 고객과 그 단체에 가장 좋은지, 고려해야 할 보안이나 IT 요건이 있는지 등의 질문을 하게 됩니다. 이런 유형의 질문에 답하고 나면 사용해야 할 기술을 정할 수 있을 뿐만 아니라 그에 맞는 작업 과정과 프로젝트의 성공 기준을 정하는 데에도 도움이 됩니다.
맞춤형 신경망 기계 번역 개발 과정
모든 환경은 서로 다릅니다. 첫 번째 단계는 고객의 콘텐츠와 목적을 이해하는 것입니다. 따라서 고객 콘텐츠의 구체적인 니즈는 무엇이고, 어떤 유형의 작업 유형을 따르는 것이 고객과 그 단체에 가장 좋은지, 고려해야 할 보안이나 IT 요건이 있는지 등의 질문을 하게 됩니다. 이런 유형의 질문에 답하고 나면 사용해야 할 기술을 정할 수 있을 뿐만 아니라 그에 맞는 작업 과정과 프로젝트의 성공 기준을 정하는 데에도 도움이 됩니다.
기계 번역 관련 내용
베이스라인 엔진 선택
베이스라인 엔진은 프로젝트를 구축하는 기반입니다. 여기에 사용할 수 있는 엔진은 구글, 마이크로소프트, 아마존, 심지어 애플을 포함하며 규모는 작지만 효과적인 다른 업계 프로그램들도 존재합니다. 저희는 고객과 함께 어떤 엔진이 고객의 필요에 가장 적합할지를 판단하며, 이를 위해서 여러 API뿐만 아니라 고객의 요건에 따라 콘텐츠에 적합한 엔진을 선택하는 데 도움이 되는 자동화된 테스트 시스템을 제공하고 있습니다.
데이터 선택 및 코퍼스 (말뭉치) 준비
맞춤형 신경망 기계 번역 엔진의 시작점은 번역할 내용과 최대한 비슷한 콘텐츠가 포함된 기존 번역 자료를 찾고 활용하는 것입니다. 이때 기존에 번역된 자료가 많을수록 과정도 더 빠르고 저렴합니다. 또 출처와 대상(출발어와 도착어)이 이미 번역 메모리 단위로 연결되어 있지 않다면 정렬 작업을 통해 엔진의 성능 촉진에 필요한 2개 국어 콘텐츠를 확보하고 있습니다.
다음 단계: 단일 언어 (대상) 콘텐츠
충분한 대상 참고 콘텐츠가 존재한다면 스타일과 용어를 모두 활용할 수 있도록 해당 내용을 엔진에 추가할 수 있습니다.
마지막 단계: 추가 자료에서 가져온 특별 말뭉치
온라인으로 엔진에 추가될 콘텐츠와 최대한 비슷한 자료를 찾습니다. 최고 품질의 말뭉치 검색에 들이는 시간은 항상 투자 가치가 있습니다. 이는 데이터 마켓플레이스에서 얻을 수 있는 2개 국어 데이터의 경우에도 마찬가지입니다.
재교육: 인간 사후 교정으로 새로운 CNMTE 개선
해당 작업에서 일반적인 구성은 인간 사후 교정을 과정에 통합해 결과를 개선하는 것입니다. 이런 작업 흐름에서 자사 전문가들은 번역 품질을 개선할 뿐만 아니라 향후 번역을 위해 엔진을 재교육할 수 있도록 맞춤형 신경망 기계 번역 엔진으로 얻은 출력물을 교정하게 됩니다. 윤문 작업을 담당하는 전문가가 출력물을 수정하고 나면 엔진은 동적 적응형 모델을 이용해 더 똑똑해집니다. 게다가 더 많은 번역이 엔진에 추가될수록 시간이 지나면서 더욱더 똑똑해지기까지 합니다. 다시 말해 완전한 인간 번역과 해당 솔루션 간의 품질 간극이 드라마틱하게 줄어들면서 처리 시간과 비용도 크게 줄일 수 있게 되는 것입니다. 저희는 이런 엔진이 지속적인 번역이 필요한 모든 고객에게 자산이 되고 시장 차별화를 선사할 존재가 되리라 생각합니다.