阅读背景:

Attention Mask_松松鼠的博客_attention mask

来源:互联网 

Mask大致分为两种

Padding Mask:在NLP任务中,由于句子长度不一致,经常会进行padding操作,在sequence中加入零向量。这部分padding不应该起作用,但是在Attention的计算中用到了softmax等操作,即便0向量也会参与计算(e^0=1),因此需要手动将这部分信息mask才行。padding mask主要包含两种:Padding Mask:在NLP任务中,由于句子长度




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: