基于搜索引擎的新闻搜索的弊端及搜索优化需求设计

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Dangdangcyuyan/article/details/51970420

随着当今社会信息化程度的不断提高,网络数据信息已经爆炸式增长,同时,庞大的Web新闻信息资源在有效利用方面有了长足发展,但是,网页承载量过大,而且信息极其繁复,普通用户在Web新闻信息资源的高效检索和利用上存在着诸多不足——以百度新闻为例:

1普通用户不能对有效的新闻信息及时检索、提取、保存以及个性化处理,造成一定量有效的新闻信息资源的流失;

(2)纯手工搜索、分类和保存大量百度新闻信息搜索存在着工作量大、重复率高、效率低、时效性差和错误率不可把控等弊端;

(3)多条件搜索难以实现,例如:在新闻搜索结果中精确某年某月某日的定点查询;搜索匹配另外的个性需求的新闻搜索的实现;

(4)只提供了匹配新闻标题和新闻内容的搜索匹配,不能实现新闻信息的来源筛选,从而造成了搜索到的新闻信息数量大,但是同样存在新闻信息的重复多相对较高。

web信息检索解决方案的实现方法,大多是面向于商业信息提取、文献自动检索、科研人员等专业领域的应用研究,对于普通用户需求(社会公众、非专职人员以及专业应用研究者)研究相对较少。

需求:设计一个面向于普通用户的提取检索各搜索引擎新闻信息的基础检索提取模型,实现一个基于正则匹配式匹配提取百度新闻搜索的Web新闻信息HTML表单关键新闻标签信息的算法,利用正则表达式模糊性匹配提取出需要的新闻信息,经过数据噪音清洗得到用户需要的准确新闻信息,并根据用户的需要定制个性的信息提取方案和通过设置新闻信息的二次过滤条件使提取的信息更加有效和快速,从而为普通用户提供一个更经济、更个性和更实用的新闻信息检索、查看、筛选和本地保存方案。

猜你喜欢

转载自blog.csdn.net/Dangdangcyuyan/article/details/51970420
今日推荐