DeepL的工作原理

作者： DeepL Team最近更新: 2021年10月31日

在本博文中

我们时常被问及，为何DeepL翻译器比一些科技巨头公司的同类系统运行更优。有几点原因可以解释。和大多数翻译系统一样，DeepL翻译器使用人工神经网络来翻译文本。对该网络的训练基于数以百万计的翻译文本。然而，我们的研究人员已经对整个神经网络方法进行了许多改进，其主要体现在四个方面。

网络架构

众所周知，大多数公开可用的翻译系统都是仅在Transformer架构的基础上进行修改。当然，DeepL的神经网络也包含该架构的一部分，如注意力机制。然而，该网络的拓扑结构却有很大区别，导致翻译质量总体上比公共研究的技术水平有很大的提高。当我们在同一数据上对我们的架构和最知名的Transformer架构进行内部训练和比较时，我们可以清楚地看到网络架构质量间的差异。

训练数据

我们的大多数直接竞争对手都是科技巨头公司，已有多年开发网络爬虫的经验。因此，他们在训练可用数据的数量上有明显的优势。然而，我们非常重视有针对性地获取特殊的训练数据，帮助我们的网络实现更高的翻译质量。为此，我们开发了专门的爬虫，自动查找互联网上的翻译并评估其质量。

训练方法

在公开研究领域，训练网络通常使用“监督学习”方法进行训练。这意味着，多样的示例会反复呈现给训练网络。这样一来，该网络可以反复比较自己的翻译和训练数据中的翻译。如果有差异，该网络的权重就会相应调整。在训练神经网络时，我们还使用了机器学习其他领域的一些技术。这使得我们能够实现显著的改进。

网络规模

与此同时，我们（像我们最大的竞争对手一样）使用数以亿计的参数训练翻译网络。这些网络规模巨大，仅有在大型专用计算集群上以分布式方式才可以进行训练。然而，我们在研究中非常重视高效使用网络参数。这使得我们在较小和较快的网络中也能达到类似的翻译质量。得益于此，我们也可以向我们的免费用户提供非常高的翻译质量。

当然，我们始终在寻找优秀的数学家和计算机科学家，希望他们愿意帮助推动发展，进一步改善DeepL翻译器，并打破世界各地的语言障碍。如果你在数学和神经网络训练领域有相关经验，并且愿意为全世界都可以免费使用的产品工作，请申请DeepL！

作者： DeepL Team最近更新: 2021年10月31日