DeepLの仕組み

作成： DeepL Team最終更新日: 2021年10月31日

大手技術系企業の翻訳システムよりDeepLの方が上手く翻訳できることが多いのはなぜか、とよく聞かれますが、これにはいくつか理由があります。他の多くの翻訳システムと同様、DeepLでも人工ニューラルネットワークを使って翻訳しています。ネットワークのトレーニングには、何百万もの翻訳済みテキストを使用していますが、DeepLのリサーチャーらは、ニューラルネットワークの方法論の全般、特に次の4分野に大幅な改善を加えてきました。

ネットワークアーキテクチャ

一般に公開されている翻訳システムのほとんどは、Transformerのアーキテクチャを直接改良したものであることはよく知られています。もちろん、DeepLのニューラルネットワークにも、アテンション機構などTransformerのアーキテクチャを一部採用しています。ただ、ネットワークのトポロジーに大きな違いがあり、最新の研究成果と比べて格段に高品質の翻訳が得られます。私たちのアーキテクチャとTransformerのアーキテクチャについて、共通のデータを使って比較試験やネットワークトレーニングを行うと、クオリティの違いがよく分かります。

トレーニングデータ

私たちの直接の競合相手は、長年にわたりウェブクローラーを開発してきた大手技術系企業です。このような大手技術系企業は、トレーニング用のデータを豊富に持っているという点で圧倒的に有利な立場にあります。一方の私たちは、ニューラルネットワークを使った翻訳の精度を向上させられるように、特別なトレーニングデータを獲得することに重点を置いています。この一環として、インターネット上の翻訳を自動検索し、翻訳の品質を自動評価できる特殊なクローラーを開発しました。

トレーニング方法

一般に知られている研究では、通常「教師あり学習」の手法を使ってネットワークをトレーニングしています。この手法では、異なる例文を何度もネットワークに提示し、ネットワークはトレーニングデータとして与えられた訳文とネットワークが訳出した結果を繰り返し比較します。比較の結果、差異があればこれに応じてネットワークの重みを調整します。また、DeepLではニューラルネットワーク機械学習の別分野の技術も採用してトレーニングを行い、大幅な品質改善を実現しています。

ネットワークのサイズ

主要な競合他社と同様、私たちは何十億ものパラメータを使って翻訳ネットワークをトレーニングしています。翻訳ネットワークのサイズがあまりにも大きいため、大規模なコンピュータクラスター上で分散してトレーニングする以外に方法はありませんが、 DeepLのリサーチチームでは、ネットワークのパラメータを限りなく効率的に使うことを重要視しています。このようにして、競合他社と比べると小規模ですが高速なネットワークを使って、同等の品質で翻訳できるようになりました。そして無料版のユーザーにも、非常に高精度の翻訳サービスをご提供できるようになりました。

DeepLでは、私たちと一緒に開発を促進し、DeepL翻訳の精度をさらに向上させ、世界から言葉の壁をなくしたいと考える優秀な数学者やコンピュータサイエンティストを常時募集しています。数学やニューラルネットワークのトレーニングの分野で経験をお持ちの方や、世界中の人々に無料で使ってもらえるプロダクトの開発に携わりたいとお考えの方は、ぜひDeepLにご応募ください！