现有NMT系统缺点:计算量大,难应对低频词
[2](2015经典NMT)里的模型,是(上一时刻隐藏层输出s,上一时刻输出层预测词的词向量e(y),和当前上下文向量c)这三者输入到当前时刻LRU单元中,得到当前时刻隐藏层输出s;“当前上下文向量c”是由encoder的所有时刻隐藏层输出h的加权得到;各时刻权重a是由上一时刻隐藏层输出s和encoder在各个时刻隐藏层输出h计算“相似度”后再经过softmax得到;“相似度”是由s和h经过一个全连接网络得到;[2](2015经典NMT)里的模型,是
现有NMT系统缺点:计算量大,难应对低频词
[2](2015经典NMT)里的模型,是(上一时刻隐藏层输出s,上一时刻输出层预测词的词向量e(y),和当前上下文向量c)这三者输入到当前时刻LRU单元中,得到当前时刻隐藏层输出s;“当前上下文向量c”是由encoder的所有时刻隐藏层输出h的加权得到;各时刻权重a是由上一时刻隐藏层输出s和encoder在各个时刻隐藏层输出h计算“相似度”后再经过softmax得到;“相似度”是由s和h经过一个全连接网络得到;[2](2015经典NMT)里的模型,是