奇异值分解SVD应用--LSI

推荐: https://blog.csdn.net/abcjennifer/article/details/8131087

LSI(或者LSA,潜在语义分析),简单来说:
给定矩阵A, shape = (m,n),其中m是文档数,n是单词数, a i j 表示第i篇文档中第j个单词的特征,比如:词频、TF-IDF。
通过SVD,将A分解成三个矩阵。
A = XBY
X: shape=(m,k), 含义: x i j 表示第i篇文档和第j个主题的相关性
B: shape=(k,k),含义: b i j 表示第i个主题和第j个词义的相关性
Y: shape=(k,n),含义: y i j 表示第i个词义和第j个词语的相关性

分解后得到的X和Y矩阵是十分有用的,通过X,可以进一步分析出主题相似的文章;通过Y,可以进一步分析出同义词。

注意:奇异值分解后,X,B,Y中的元素可以是负的,因此在这一点上并不好。

猜你喜欢

转载自blog.csdn.net/yqmind/article/details/80869556