向量是未来的数据表示
向量搜索
方法
减少距离计算次数
- 哈希法
- 空间划分树
- 近邻图
SPTAG
混合了kd树和近邻图
Change
大规律向量搜索
- 内存
- 可扩展
-
倒排索引
-
全局量化进行压缩
-
top1的召回率比较低
-
基于图的近邻图
SPANN
倒排索引中的问题:
- 不平衡的聚类方法
- 低覆盖率
- 有重叠的聚类,不同方向的复制
- 查询状态剪枝,离查询距离比较近的查询倒查表
参考
- https://github.com/microsoft/SPTAG
- HNSW: https://arxiv.org/pdf/1603.09320.pdf