learning_notes

学习笔记

View project on GitHub

文字处理

资料

编码方式

  • 独热编码(One-hot encodings)
    • 效率低下
    • 向量是稀疏的,空间占用大
  • 唯一数字编码
    • 单词之间的关系不明显
    • 为每个单词建立权重
  • 词嵌入(Word embeddings):是一种词的类型表示,具有相似意义的词具有相似的表示
    • 词嵌入实际上是一种将各个单词在预定的向量空间中表示为实值向量的一类技术
    • 这项技术的关键点在于如何用密集的分布式向量来表示每个单词。这样做的好处在于与one-hot这样的编码对比,使用词嵌入表示的单词向量往往只有几十或者几百个维度。极大的减少了计算和储存量

词嵌入技术

  • Embedding Layer

  • Word2Vec

  • GloVe

词嵌入偏差消除

性别,种族等 如:父亲–>医生 母亲–>护士

  • 类似PCA