我们可以使用 Annoy 对 word2vec 向量建立索引并将其结果与 gensim 的 KeyedVectors索引进行对比( 像 Annoy 这样的局部敏感哈希使潜在语义索引成为现实):
from gensim.models.keyedvectors import KeyedVectors
import annoy
from annoy import AnnoyIndex
# tqdm()接受一个迭代器并返回一个迭代器(如enumerate()),
# 然后在循环中插入代码以显示一个进度条
from tqdm import tqdm
import numpy as np
import random
import pandas as pd
# 加载 word2vec 向量
wv = KeyedVectors.load_word2vec_format('xxx\\googlenews-vectors-negative300.bin.gz',
binary=True)
print(len(wv.vocab), len(wv[next(iter(wv.vocab))]))
print(wv.vectors)
print(wv.vectors.shape)
# 初始化一个空的 Annoy 索引,使用与上述向量同样的维数
# 初始化 300 维 AnnoyIndex
num_words, num_dimensions = wv.vectors.shape
index = AnnoyIndex(num_dimensions)
# 将 word2vec 向量逐个添加到 Annoy 索引中。我们可以将此过程视为逐页读取
# 一本书,并将每个词对应的页码放在书后倒排索引表中的过程把每一个词向量添加到 AnnoyIndex
# .index2word 是词汇表中所有 300 万词条的未排序
# 列表,相当于将整数索引(0-2999999)映射到词条('</s>'映射为'snowcapped_Caucasus')
for i, word in enumerate(tqdm(wv.index2word)):
index.add_item(i, wv[word])
# 读取整个索引并尝试将向量聚类成可以在树状结构中索引的小块
# 基于 15 棵树创建欧几里得距离索引
num_trees = int(np.log(num_words).round(0))
print(num_trees)
# 300 万个向量需要 round(ln(3000000)) => 15 个索引树
index.build(num_trees)
# 将索引保存到本地文件并释放内存
print(index.save('Word2vec_euc_index.ann'))
idw2 = dict(zip(range(len(wv.vocab)), wv.vocab))
# 在索引中查找词汇表中的词
# 基于 AnnoyIndex 查找 Harry_Potter 的邻居
# gensim 的 KeyedVectors.vocab 字典包含Vocab 对象,而不是原始字符串或索引号
print(wv.vocab['Harry_Potter'].index)
# gensim 的Vocab 对象可以告诉大家2-gram “Harry_Potter”在 Google News 语料库中被
# 提及的次数……将近300 万次
print(wv.vocab['Harry_Potter'].count)
w2id = dict(zip(wv.vocab, range(len(wv.vocab))))
print(w2id['Harry_Potter'])
# Annoy 索引漏掉了很多更近的邻居,提供了搜索词的通用近邻而不是最近的 10 个近邻
ids = index.get_nns_by_item(w2id['Harry_Potter'], 10)
print(ids)
print([idw2[j] for j in ids])
print([wv.vocab[i] for i in [idw2[j] for j in ids]])
annoy_15trees = [wv.index2word[i] for i in ids]
print(annoy_15trees)
# 使用 gensim 内置的 KeyedVector 索引来检索正确的最近10 个邻居
# 基于 gensim.KeyedVectors 索引返回的 10 个 Harry_Potter 最近邻
gensim_data = [word for word, similarity in wv.most_similar('Harry_Potter', topn=10)]
print([(word, similarity) for word, similarity in wv.most_similar('Harry_Potter', topn=10)])
# 使用余弦距离度量(而不是欧几里得距离)重建索引并添加更多树
# 创建一个余弦距离索引
# 返回一个可读写的新索引,并存储f维的向量
# metric='angular'表示使用 angular(余弦)距离度量来计算簇和哈希。
# 可以选择“angular”(余弦距离)、“euclidean”(欧几里得距离)、 “ manhattan”(曼哈顿距离)或“hamming”(海明距离)
index_cos = AnnoyIndex(f=num_dimensions, metric='angular')
for i, word in enumerate(wv.index2word):
if not i % 100000:
print('{}: {}'.format(i, word))
index_cos.add_item(i, wv[word])
index_cos.build(30)
index_cos.save('Word2vec_cos_index.ann')
# 在余弦距离空间里 Harry_Potter 的邻居
ids_cos = index_cos.get_nns_by_item(w2id['Harry_Potter'], 10)
print(ids_cos)
# LSH的随机投影是随机的。如果需要复现
# 结果,请使用 AnnoyIndex.set_seed()方法
annoy_30trees = [wv.index2word[i] for i in ids_cos]
print(annoy_30trees)
# 将两次 Annoy 搜索的结果与 gensim的正确答案进行比较
# 排名前 10 的搜索结果精确率
data_top10 = np.array([gensim_data, annoy_15trees, annoy_30trees]).T
# 当我们增加 Annoy 索引树的数量时,会降低不太相关的词项的排名,并插入更多相关的真正的最近邻词项
# 此外,Annoy 索引得到近似答案明显快于提供精确结果的 gensim 索引
print(pd.DataFrame(data_top10, columns=['gensim', 'annoy_15trees', 'annoy_30trees']))