如何使用 JavaScript 原生 API 对中文进行分词? Intl.Segmenter 的简单使用

Intro

记得之前,使用 Python 做词云分析的时候,用到了jieba这个python库做中文分词。
今天看到在 JavaScript 直接有一个原生API可以完成“分词”的功能,遂记录一下用法。

JavaScript 分词API Intl.Segmenter

function splitText(locales, text) {
    
    
    console.table(Array.from(new Intl.Segmenter(locales, {
    
     granularity: 'word' }).segment(text)));
}

var locales = 'cn';
var text = '因为我发现其实历史没有变化,技术变了,衣服变了,饮食变了,这都是外壳,里面什么都没变化,还是几千年前那一套,转来转去,该犯的错误还是要犯,该杀的人还是要杀,岳飞会死, 袁崇焕会死, 再过一千年,还是会死。';
splitText(locales, text);

在这里插入图片描述

注意这个 API 的浏览器兼容性:
在这里插入图片描述

参考

猜你喜欢

转载自blog.csdn.net/wuyujin1997/article/details/130451213