在对自然语言进行处理时,首先需要面对文本单元表示问题。单词(words)作为常考虑的最小文本单元,因而,如何将单词表示成恰当的词向量(word vector)成为了研究者们研究的重点。最简单直观的方法是one-hot representation,也称1-of-N representation,这种方式将每个单词表示成一个词汇表(vocabulary)大小的向量,其中绝大部分元素都是0,只有一个维度的值是1,这个维度就代表了当前的词。如:我们可以将词汇表中所有的词按照字母顺序排序,每个单词对应的one-hot representation中,只有第“其在词汇表中的索引(序号)”维的值为1,其他维都是0。假设我们有“King,Queen,Man,Woman,Child”5个单词组成的词汇表,“Queen”在词汇表中的序号是4,那么其对应的词向量就是在对自然语言进行处理时,首先需要面对文本单元表示问题。单词(words)作为常考