Процесс разработки пользовательского нейронного машинного перевода
Каждая ситуация уникальна. Наш первый шаг — понять контент и цели клиента. Каковы конкретные потребности в связи с вашим контентом? Какой тип рабочего процесса подходит для вашего контента и вашей организации? Есть ли у вас какие-либо требования к безопасности и/или информационным технологиям, которые нам необходимо учесть? Ответы на эти вопросы помогут определить не только подходящую технологию, но и соответствующий процесс и критерии успеха проекта.
Процесс разработки пользовательского нейронного машинного перевода
Каждая ситуация уникальна. Наш первый шаг — понять контент и цели клиента. Каковы конкретные потребности в связи с вашим контентом? Какой тип рабочего процесса подходит для вашего контента и вашей организации? Есть ли у вас какие-либо требования к безопасности и/или информационным технологиям, которые нам необходимо учесть? Ответы на эти вопросы помогут определить не только подходящую технологию, но и соответствующий процесс и критерии успеха проекта.
Контент, связанный с машинным переводом
Home » Услуги » Машинный перевод » Пользовательские двигатели NMT
Выбор базовой системы
Базовая система — это фундамент, на котором мы будем строить проект. На рынке существует несколько предложений — например, Google, Microsoft, Amazon и даже Apple, а также другие более мелкие, но эффективные отраслевые игроки. Вместе с клиентом мы определяем, какая система лучше всего подходит для его нужд. Для этого мы предлагаем множество API, а также автоматизированную систему тестирования, которая позволит выбрать ту систему, которая лучше подходит для вашего контента, в зависимости от ваших требований.
Выбор данных и подготовка корпуса
Отправной точкой для пользовательского нейронного машинного перевода является поиск и использование ранее переведенных материалов с содержанием, максимально похожим на то, которое необходимо перевести. Чем больше будет переведенных ранее материалов, тем быстрее и экономичнее будет процесс. Если источник и цель еще не связаны как единицы памяти переводов, можно выполнить сопоставление, чтобы получить двуязычный контент, необходимый для повышения производительности системы.
Следующий шаг. Одноязычный (целевой) контент
Если существует достаточное количество целевого справочного контента, можно использовать как стиль, так и терминологию, добавив их в систему.
Последний шаг. Специализированный корпус из дополнительных источников
Мы будем искать в Интернете материалы, которые максимально соответствуют содержанию, которое будет прогоняться через систему. Инвестирование времени в поиск наиболее качественного языкового корпуса неизменно окупается. То же самое относится и к двуязычным данным, которые можно получить на рынках данных.
Переобучение. Новые CNMTE совершенствуются благодаря постредактированию силами человека
Распространенной практикой является постредактирование машинного перевода человеком с целью улучшения результатов работы. В рамках этого рабочего процесса результаты работы пользовательского нейронного механизма машинного перевода редактируются нашими экспертами-лингвистами для улучшения качества, а также для переобучения механизма для будущих переводов. По мере того, как редактор подправляет переведенный машиной текст, система становится более интеллектуальной, используя динамическую адаптивную модель. Более того, по мере того, как через систему проходит все больше переводов, она со временем становится еще «умнее». Другими словами, разрыв в плане качества между переводом полностью силами человека и этим способом резко сокращается, а время на выполнение заказа и затраты значительно снижаются. По нашему мнению, эти системы станут важным активом и отличительным рыночным фактором для любого клиента с похожими материалами.