Haystack全文检索框架中使用jieba分词包 - 代码天地

Haystack全文检索框架中使用jieba分词包

其他 2019-09-30 20:18:02 阅读次数: 0

1.安装jieba

pip install jieba

2.引入jieba

cd 到haystack安装目录backends下, 新建文件ChineseAnalyzer.py,键入内容

import jieba
from whoosh.analysis import Tokenizer, Token

class ChineseTokenizer(Tokenizer): def __call__(self, value, positions=False, chars=False, keeporiginal=False, removestops=True, start_pos=0, start_char=0, mode='', **kwargs): t = Token(positions, chars, removestops=removestops, mode=mode, **kwargs) seglist = jieba.cut(value, cut_all=True) for w in seglist: t.original = t.text = w t.boost = 1.0 if positions: t.pos = start_pos + value.find(w) if chars: t.startchar = start_char + value.find(w) t.endchar = start_char + value.find(w) + len(w) yield t def ChineseAnalyzer(): return ChineseTokenizer()

3.更改haystack的后台文件

文件夹下cp并修改whoosh_backend.py, 增加jieba.

cp whoosh_backend.py whoosh_cn_backend.py

# 文件名是惯例, 可自行修改

修改whoosh_cn_backend.py

# 导入模块

from .ChineseAnalyzer import ChineseAnalyzer

查找

analyzer=StemmingAnalyzer()

改为

analyzer=ChineseAnalyzer()

4.Django内settings内修改相应的haystack后台文件名.

HAYSTACK_CONNECTIONS = {
    'default': {
        'ENGINE': 'haystack.backends.whoosh_cn_backend.WhooshEngine', 'PATH': os.path.join(BASE_DIR, 'whoosh_index'), } }

设置完成,重新生成索引即可使用jieba分词.

python manage.py rebuild-index

猜你喜欢

转载自www.cnblogs.com/jrri/p/11613993.html

Haystack全文检索框架中使用jieba分词包

haystack全文检索框架

全文检索django-haystack+jieba+whoosh

haystack(全文检索框架)和whoosh(全文检索引擎)的使用

11: django-haystack+jieba+whoosh实现全文检索

Django的全文检索功能（一）:haystack全文检索的框架

haystack全文检索

Django框架之全文检索haystack组件详解

django项目之全文检索搜索配置haystack+whoosh+jieba

四、haystack+whoosh+jieba 全文检索功能 -DJango在线学习网站

haystack(django的全文检索模块)

全文检索Lucene框架---分词器

Haystack-全文搜索框架分布式全文检索引擎之ElasticSearch

使用haystack实现Django的全文搜索 --Whoosh+Jieba搜索引擎

Django Haystack全文检索为空的问题

Django：haystack全文检索详细教程

全文检索框架Haystack,与 Whoosh搜索引擎的搭配以及相关配置

Django全文检索及中文分词

全文检索---分词器

python中使用jieba进行中文分词

Python使用jieba分词

jieba 分词使用入门

jieba 分词的使用

Django Haystack 全文检索与关键词高亮

全文检索框架ElasticSearch

Lucene全文检索框架

全文检索框架

全文检索框架---Lucene

Spring中使用ElasticSearch实现中文分词全文搜索

anaconda安装jieba分词包

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)