機械翻訳は電気羊に幻覚を起こさせますか?

forest 7772371 1280

ロボットは夢を見ないかもしれませんが、幻覚を起こさせます。最近、AI(人工知能)がメディアの注目の中心にある中、アルゴリズムベースのテクノロジーが素材を「幻わせる」させる傾向が AI の使用に関する大きな不安となっており、これは機械翻訳の分野でも例外ではありません。

この記事では、機械翻訳の幻覚とは何か、なぜ起こるのか、そしてこの深刻な問題が潜在的な翻訳プロジェクトに影響を与えないようにするにはどうすればよいかを検討します。

機械翻訳の幻覚とは何ですか?

機械翻訳は、人間による翻訳とは対照的に、コンピューター ソフトウェア (通常は人工知能または機械学習ソリューション) を使用してテキストをある言語から別の言語に翻訳します。機械翻訳は時間とお金の節約に一役買いますが、残念ながら、こうした機械は幻覚を引き起こす可能性もあります。つまり、元の入力とはまったく関係のない翻訳文が出力されることがあります (それらはしばしば奇妙な文章です) 。

たとえば、機械翻訳を使ったある実験では、使用されたモデルが幻覚を起こし、まったく新しいストーリーになっていることが判明しました。元の文はコロンビアで進行中のストライキに関する声明でした。最初にGoogle翻訳を使ってマラーティー語に翻訳し、その後機械翻訳で英語に翻訳し直した結果、その文はエホバの証人で奉仕する米国の子供たちに関するまったく的外れな声明となっていました。この例が示すように、機械が信頼できるデータをそれほど多く持っていない可能性があったり、英語からあまり一般的に使用されていない言語に翻訳するときに、なおいっそう幻覚が頻繁に発生する可能性があります。

なぜ幻覚が起こるのでしょうか?

一部のニューラル機械翻訳 (NMT)幻覚は、「入力摂動」、つまり、結果的に出力を狂わせる入力の予期せぬ要素によって引き起こされます。入力には、タイプミス、風変わりなスタイル、珍しい単語、または単にモデルで考慮されていない単語が含まれている可能性があります。

その他の幻覚は、モデルのトレーニングに使用されるデータの根本的な問題に起因します。研究者らは、たとえば、一部のモデルにはフレーズの過剰記憶の問題があることを発見しました。つまり、機械がフレーズを記憶しすぎて、文脈やイディオムを認識せずに毎回まったく同じ方法でフレーズを繰り返したがる場合です。トレーニング データ本体に多量の「ノイズ」が含まれている場合、つまりソース文とターゲット文の間の誤ったペア、または位置がずれているペアが多すぎる場合も、幻覚を引き起こす可能性があります。

そして、ChatGPT のような LLM ベースのモデルに関しても、事態は同様に憂慮すべきものになります。的を外れた翻訳や翻訳の不具合や失敗に加えて、トレーニング データには、翻訳出力にしのび込む毒々しい素材が含まれる場合もあります。

翻訳の幻覚を避ける方法

ご想像のとおり、機械翻訳の幻覚はビジネスにとって悲惨な結果をもたらし、ユーザーの信頼を損ない、重大なセキュリティ上の懸念を引き起こす可能性があります。機械自体の微調整を試みる方法はありますが、疑いの余地なく幻覚を解決する唯一の実証済みの方法は、人間のタッチ、つまり本物のプロの人間の翻訳者によるものです。

人間による翻訳を使用するからといって、主要プロジェクトの最初のステップとして機械翻訳を使用できないというわけではありません。代わりに、人間の翻訳者を雇って、ポストエディットと呼ばれるプロセスで機械翻訳の「初稿」をクリーンアップすることができます。ポストエディターは機械翻訳をレビューして修正し、高水準に磨き上げるだけでなく、再翻訳を機械自体のメモリに組み込んで、将来のプロジェクトに向けた「トレーニング」を向上させることもできます。

最良の結果を得るには、 Trusted Translations専門ポストエディターなど、機械翻訳のポストエディットについて特別に訓練を受けたプロの翻訳者を探す必要があります。彼らは厳格なプロセスに従って各翻訳の品質を保証します。

AndreasによるPixabayからの画像