DeepL的工作原理

author_by DeepL Team

我们时常被问及,为何DeepL翻译器比一些科技巨头公司的同类系统运行更优。有几点原因可以解释。和大多数翻译系统一样,DeepL翻译器使用人工神经网络来翻译文本。对该网络的训练基于数以百万计的翻译文本。然而,我们的研究人员已经对整个神经网络方法进行了许多改进,其主要体现在四个方面。

网络架构

众所周知,大多数公开可用的翻译系统都是仅在Transformer架构的基础上进行修改。当然,DeepL的神经网络也包含该架构的一部分,如注意力机制。然而,该网络的拓扑结构却有很大区别,导致翻译质量总体上比公共研究的技术水平有很大的提高。当我们在同一数据上对我们的架构和最知名的Transformer架构进行内部训练和比较时,我们可以清楚地看到网络架构质量间的差异。

训练数据

我们的大多数直接竞争对手都是科技巨头公司,已有多年开发网络爬虫的经验。因此,他们在训练可用数据的数量上有明显的优势。 然而,我们非常重视有针对性地获取特殊的训练数据,帮助我们的网络实现更高的翻译质量。为此,我们开发了专门的爬虫,自动查找互联网上的翻译并评估其质量。

训练方法

在公开研究领域,训练网络通常使用“监督学习”方法进行训练。这意味着,多样的示例会反复呈现给训练网络。这样一来,该网络可以反复比较自己的翻译和训练数据中的翻译。如果有差异,该网络的权重就会相应调整。 在训练神经网络时,我们还使用了机器学习其他领域的一些技术。这使得我们能够实现显著的改进。

网络规模

与此同时,我们(像我们最大的竞争对手一样)使用数以亿计的参数训练翻译网络。这些网络规模巨大,仅有在大型专用计算集群上以分布式方式才可以进行训练。 然而,我们在研究中非常重视高效使用网络参数。这使得我们在较小和较快的网络中也能达到类似的翻译质量。得益于此,我们也可以向我们的免费用户提供非常高的翻译质量。

当然,我们始终在寻找优秀的数学家和计算机科学家,希望他们愿意帮助推动发展,进一步改善DeepL翻译器,并打破世界各地的语言障碍。如果你在数学和神经网络训练领域有相关经验,并且愿意为全世界都可以免费使用的产品工作,请申请DeepL!