机器学习之第4部分:比较深度学习方式方法

4 部分 : 比较深度学习方式方法
 
你可能会问 : 为什么词袋模型更好 ?
最大的原因是 , 在我们的教程中 , 平均向量 , 利用重心失去词语的顺序 , 使其非常相似的概念袋的话。性能是相似的 ( 标准误差范围内 ) 使所有三种方法几乎等价
 
一些尝试 :
首先 , 训练 Word2Vec 更多的文本应该极大地提高性能。谷歌的搜索结果都是基于词向量是学习的一个多 billion-word 语料库 ; 我们的标记和未标记的训练集在一起只有区区 1800 万字左右。方便 ,Word2Vec 提供函数加载任何 pre-trained 模型由谷歌的原始输出 C 工具 , 所以它也可以训练在 C 模型 , 然后将其导入 Python
 
第二 , 出版文献中 , 分布式词向量技术已被证明比袋字模型。本文的算法叫做段落向量在 IMDB 上使用数据集产生的一些最先进的成果。在某种程度上 , 它确实比我们尝试的方法因为向量平均和集群失去词序 , 而段落向量保存订单信息。
 
 

猜你喜欢

转载自501565246-qq-com.iteye.com/blog/2331700
今日推荐