摘要
最近提出的BERT在各种自然语言理解任务上表现出强大的能力,例如文本分类,阅读理解等。然而,如何有效地将BERT应用于神经机器翻译(NMT)仍然缺乏足够的探索。虽然BERT通常用于微调,而不是用于下游语言理解任务的上下文嵌入,但是在NMT中,我们实验表明使用BERT作为上下文嵌入的初步探索要比用于微调更好。这激发了我们思考如何沿着这个方向更好地利用BERT进行NMT。我们提出了一种称为BERT-fused模型的新算法,该算法首先使用BERT提取输入序列的表示,然后通过注意力机制将表示与NMT模型的编码器和解码器的每一层融合。我们在有监督的(包括句子级和文档级的翻译),半监督的和无监督的机器翻译上进行实验,并在七个基准数据集上获得了最新的结果。我们的代码可从最近提出的BERT在各种自然语言理解任务上表现出强大的能力,例如文本分