word2vec数学原理

2020-03-01 136浏览

  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.输⼊入层中,每个矩形⾥里里其实都有⼀一个权值矩阵, 将输⼊入词的独热编码转化为词向量量 输出层中的Huffman树的叶⼦子节点个数等于词汇 表⼤大⼩小,⾛走到哪个叶⼦子代表结果是哪个词(也可以看做 是独热编码)
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.输⼊入层⾸首先先把w转化为v(w),也 就是矩形中有个矩阵把独热编码转 化为词向量量(和cbow类似)
  • 25.
  • 26.
  • 27.先确定⼀一个正样本(context(w),w),再抽样若⼲干个负样本(context(w),w’),其中w’是统计了了训 练集中已知context(w)取w的概率分布后,依概率抽样得到的。
  • 28.负采样的⽬目的是不不需要对整个向量量矩阵 U或 V 进⾏行行优化,⽽而是仅对求代价过程中涉及的词向量量进⾏行行优化
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35.
  • 36.
  • 37.
  • 38.
  • 39.
  • 40.This document can be also found fromhttp://blog.csdn.net/itplus/article/details/37969519