垂直搜索引擎的框架体系


(1)核心技术
A.网络爬虫/Spider技术;
B.网页块分析正文抽取;
C.通过用户自定义分类,聚类;
D.网页非结构化信息抽取;
E.面向搜索基于词库的中文切分词;
F.url和标题去重;
G.多语言,编码格式自动识别;
(2)功能列表;
A.常用功能;
启动/停止采集;
索引数据结构定义;
采集规则定义;
抽取规则定义;
系统信息浏览;
B.数据采集
分类管理;
网站管理;
网站地址管理;
URL发生器;
采集规则定义;
抽取规则定义;
C.索引系统
词库定义;
登录新词;
索引数据结构定义;
D.系统管理
修改密码;
设置采集线程数;
设置搜索深度;
日志管理;
E.二次开发接口
查询--按条件查询;
查询--排序规则定义;
查询--按时间排序查询;
查询--按相关度排序查询;
数据维护--新增一条索引数据;
数据维护--修改一条索引数据;
数据维护--删除一条索引数据;
应用--获取分类列表;

猜你喜欢

转载自xuehaipeng.iteye.com/blog/669807
今日推荐