グローバル化が進み、日々回転が速くなる中で、自動翻訳が普及するのは間違いありません。機械翻訳を鼻で笑っていても、ニューラルネットワーク(人間の思考プロセスを模倣した相互接続されたコンピュータシステム)をベースにした言語アプリは、スピード(即時)とコスト(無料)の点で、いまだに無敵です。
しかし、どんなアルゴリズムも人間の頭脳に代わることはできないし、ましてやプロの翻訳者が持つ文脈やイディオム(猫や犬が降っている)に対する感性に代わることはできません。.
速く、自由に、そして欠点もあるが、成熟している
国際組織(国連など)や多言語機関(欧州議会など)の影響もあり、巨大データベースは 50 年以上前から膨大な量の並列データを蓄積してきました。しかし、21 世紀の後半、DNN(ディープニューラルネットワーク)の登場により、人間が翻訳した文書がより実用化されるようになったのです。
このような言語の宝庫を利用して、大手テクノロジー企業は、以下のような無料翻訳プラットフォームを開発しています。
- Google Translate:(133 言語)毎日 5 億人以上のユーザーがアクセスし、英語、スペイン語、アラビア語、ロシア語、ポルトガル語、インドネシア語が最もよく使われ、ベンガル語、ハイチ・クリオール語、タジキスタン語は後塵を拝している状態だそうです。
- Microsoft’s Bing Translator:(103 言語)Microsoft Cognitive サービス の一部で、Bing、MS Office、Edge、Skype、Windows、Apple やAndroid 端末など複数の製品で統合されているクラウドサービスです。
- DeepL:(28 言語)このエンジンは、Linguee オンライン辞書に含まれる膨大な人力翻訳文、イディオム、スニペットコーパスを基盤として、ヨーロッパから世界中の言語へと拡大しつつある。
フォーカスを広げる
このような並列データのデジタルゴールドマインへの初期依存は、現在自動翻訳がフィンランド語などのヨーロッパ言語(500 万人の話者)を含む一方で、オロモ語を話す 4800 万人のエチオピア人を無視していることの説明となりえます。このほか、ボイプリ語(5100 万人)、フラ語(2400 万人)、シリエティ語(1100 万人)、キルンディ語(900 万人)など、技術的に宙ぶらりんな母国語はまだ存在します。
しかし、この状況は変わりつつあり、翻訳言語が追加されることで機械翻訳の幅が広がっていいます。IARPA(米国情報サービス研究センター)のプログラムマネージャーである Carl Rubino(カール ルビーノ)は、「経済や政治の不安定さ、Covid-19の大流行、気候変動など、今日我々が直面している問題の多くは、我々の地球を越えており、したがって多言語的性質を持っている」と述べています。
言語を通じて命を救う
このような課題は、これらの問題への対応力の低いコミュニティにとって最も重くのしかかるため、迅速かつ正確なコミュニケーションが生死を分ける問題へと急速に変化しています。人間の翻訳者は物理的な制約で出力が制限されますが、コンピュータは 24 時間 365 日、超人的なスピードで稼働することができます。文法的には不完全かもしれませんが、緊急時の限られた時間内に目的に合った分析、レポート、ガイドラインをノンストップで作り上げることができます。
これこそ、自動翻訳の範囲を拡大することの真価です。生命や生活が危機に瀕しているときに、言語や文化の壁を越えて瞬時にコミュニケーションを図ることで、顔の見えないこれらのアルゴリズムは、悪条件を生き抜くために戦うローテクコミュニティに生命線を投げかけています。
資源が乏しい言語
何百万人もの人々に話されているにもかかわらず、多くの言語では、豊かな口承の伝統にもかかわらず、限られた(そしてしばしば単一言語による)文字リソースしか提供されていません。ディープニューラルネットワークにとって、このような低リソース言語(業界ではそう呼ばれている)は、取り組むのが困難な言語でした。一方、これらの言語を話す人々は、伝統的に記録や書籍がないにもかかわらず、社会の存続を保証するような投稿やブログをせっせとアップロードしています。
歴史的に見れば、これらの文化圏における多言語資料は、信仰に基づく文献、特にコーランや聖書のように広く翻訳された聖典から提供される狭い範囲のデータセットに限られることが多かったのです。現代では、印刷物、オーディオビジュアルメディア、ソーシャルネットワークが、ディープニューラルネットワークで分析および翻訳可能な単一言語データの強固なインベントリーを構築しています。
ソーシャルネットワークによるコミュニティ安全ネットの構築
最新のニューラルネットワークモデルは、話し言葉や書き言葉の単一言語ソースで事前にトレーニングすることができます。ニューラルネットモデルは、人間の言語の特定の特徴や構造を学習し、翻訳タスクに適用されるようになったパラメータを通じて確立されているという理論です。
世界中のユーザーが、文化の壁を越えて、母国語でかなり繰り返しの多いコンテンツを投稿しているため、ニューラルモデルがユーザーのために文章を要約することができるようになりました。そのために、これらのアプリは並列データからの対訳学習をほとんど必要としないようで、数十万語(おそらく半ダースの小説)で十分なのだそうだ。
要点:世界では 7000 もの言語が話されていますが、そのうち文字は 4000 ほどしかないため、仮想翻訳アプリの活躍の場は非常に広くなっています。医療から農業まで、言語と文化のギャップを自動翻訳で埋めることは、人類のより良い未来への道であることは明らかですが、常に複数の言語 だけでなく、複数の文化に精通したプロの翻訳者の助けが必要です。
画像:Yatheesh Gowda(Pixabayより)