词图生成的两种算法 - 代码天地

词图生成的两种算法

其他 2018-07-02 12:57:43 阅读次数: 0

词图的生成

需要稀疏2维矩阵模型，以一个词的起始位置作为行，终止位置作为列，可以得到一个二维矩阵。例如：“他说的确实在理”这句话

那么如何建立节点之间的联系呢？也就是如何找到一个词A的后续B、C、D……呢？有两种已实现的方法，一种是所谓的DynamicArray法，一种是快速offset法。

DynamicArray法

最直截了当的想法当然是用二维数组模拟这个模型了，很明显，其中有不少空洞，所以在ICT系列的分词器中定义了一个蹩脚的DynamicArray结构用来储存模型，DynamicArray结构的每个节点包含一个个词的row和col，待会儿看完offset法你就会明白我什么么说DynamicArray蹩脚。

在这张图中，行和列有一个非常有意思的关系：col为 n 的列中所有词可以与row为 n 的所有行中的词进行组合。例如“的确”这个词，它的col = 5，需要和它计算平滑值的有两个，分别是row = 5的两个词：“实”和“实在”。

连接词形成边的时候，利用上面提到的关系即可。

但是在遍历和插入的时候，需要一个个比较col和row的关系，复杂度是O(N)。

快速offset

虽然模型的表示用DynamicArray没有信息的损失，但问题是，真的需要表示模型吗？

当然不，我可以将起始offset相同的词写到一行：

始##始
他
说
的/的确
确/确实
实/实在
在/在理
理
末##末

这个储存起来很简单，一个一维数组，每个元素是一个单链表。

怎么知道“的确”的下一个词是什么呢？“的确”的行号是4,长度是2,4+2=6，于是第六行的两个词“实/实在”就是“的确”的后续。就这么简单。

同时这种方法速度非常快，插入和查询的时间都是O(1)

hanlp使用后者实现

猜你喜欢

转载自blog.csdn.net/asdfsadfasdfsa/article/details/80817859

词图生成的两种算法

图的两种最小生成树算法之C++封装

最小生成树的两种算法（Prim算法

求最小生成树两种算法

最小生成树问题的两种算法

最小生成树两种算法详解

最小生成树两种常用算法

图的两种遍历

PTA 08-图7 公路村村通最小生成树 Prim算法 Kruskal算法两种算法c语言实现

LCA 的两种算法

素数两种算法

算法 4.3节两种Prim算法和Kruskal算法的最小生成树

最小生成树的两种经典算法--prim算法和kruskal算法

最小生成树两种算法的区别以及Prim算法与Dijkstra算法的区别

【python 走进NLP】两种高效过滤敏感词算法--DFA算法和AC自动机算法

[图算法之强连通分量，两种算法]--[POJ 2186 Popular Cows]

POJ1251（最小生成树kruskal算法+prim算法两种解决）

图的两种拓扑排序

图的两种遍历方式

两种递归遍历（家谱图）

sino图的两种投影方案

javascript生成UUID的两种方式

Android 生成keystore，两种方式

R 生成列表的两种方式

ElasticSearch生成ID的两种方式

【算法小结】计算图的连通块的块数的两种常用方法

ac之最小生成树的两种经典算法

基于校园网络问题的最小生成树的两种算法

（Prim）和（Kruskal）最小生成树的两种算法

【数据结构学习记录21】——两种最小生成树的算法

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)