【829】【信息检索教程】【01信息检索基础】


【要点】
解释信息的含义和特征
论述信息的分类
介绍信息检索的概念
阐述信息检索的原理
讨论信息检索系统
梳理信息检索方法
探讨信息检索效果评价

【关键词】
信息、零次信息、一次信息、二次信息、三次信息、信息检索、信息检索原理、信息检索类型、信息检索系统、信息检索方法、常用法、追溯法、综合法、信息检索效果、查全率、查准率、误检率、漏检率、响应时间

【思考题】
简述信息的特征和功能
如何理解信息的分类
简述信息检索的含义
简述信息检索的原理
简述信息检索的意义
简述信息检索系统及其分类
信息检索的方法有哪些?各有什么特点?
简述信息检索效果评价的意义
信息检索效果评价的指标有哪些?
影响信息检索效果的因素有哪些?
在这里插入图片描述

信息概述

信息的含义和特征

广义信息——自然界和一切人类活动所传达出来的信号和消息,是事物表现的一种普遍形式。

狭义信息——经过搜集、记录、处理和存储的可供检索的文献,数据和事实。它是人类对客观事物的认识,是实践经验的总结,是认识的结果,是检索的对象

信息的本质上——信息是事物自身(显示其存在方式)的属性,是客观存在的现象

信息链(补充知识)

information chain——由事实facts→数据data→信息information→知识knowledge→智能intelligence五个链环构成的。事实、数据、信息、知识、情报、智能五个链环组成信息链。

在信息链中,信息的下游是面向物理属性的,上游是面向认知属性的。作为中心链环的信息既有物理属性也有认知属性,因此成为信息链的代表称谓。

信息的特征 8个

信息的两种基本状态:可存储性和可传递性

可存储性、 可传递性 、可转换性、可处理性、可共享性、可识别性、依附性、普遍性

可存储性——可以有意识地将流动的信息以某种方式存储在物质媒介上,使信息和物质媒介构成一种依附性很强的、相对稳定的关系,从而有效地避免信息流失,也使信息检索有源可循

可传递性——信息可以通过一定的传输工具和载体进行传递,从而形成信息联系,被人们感受和接受。信息传递有空间传递和时间传递等不同类型,需要依赖一定的物质载体,具有动态性和方向性的特征

可转换性——表现在两个层面。信息在一定条件下可转化成物质,能量,金钱等其他东西,这种转换主要依靠人类对信息的正确利用。信息可以从一种形态转化成为另一种形态,自然信息可以转换为语言,文字和图像,也可以转换为电磁波信号或计算机代码。

可处理性——信息通过分类、整序、分析、综合和压缩、扩充等加工处理,而达到便于识别,效用更高的信息

可共享性——同一信息可以同时被许多人共同享用。这是信息不同于物质和能量的一个非常重要的特征。信息可以广泛的扩散和传播,信息交换的双方不会失去原有的信息,而且还会增加新的信息

可识别性——信息作为表现事物特征的一种普遍形式,反应了事物的运动状态和存在方式,人类可以通过自身的器官去直接感觉和知觉信息,通过比较去认识信息,借助于先进的信息技术和手段去识别信息。

依附性——信息无法脱离物质而独立存在。在其存储和传递过程中必须依附于一定的物质载体,信息与物质载体构成一个整体

普遍性——信息是物质的基本属性,普遍存在于自然界和人类社会之中,也存在于人类的思维或精神领域之中。只要有物质存在的地方,就有信息的存在

信息的功能和类型

在这里插入图片描述

物质和能源分别为生产提供材料和动力,信息则为生产提供智力

  1. 传承人类文明,推进社会发展

信息记载着人类文明的发展轨迹,信息的积累与传播,成为人类承上启下的纽带。信息作为人类了解自然及人类社会的凭据,与物质、能源共同奠定了社会发展的基础。

  1. 提供决策依据,提高决策效益

信息能帮助人么减少应对决策时的不确定性和风险,降低由于缺乏足够准备而造成的损失。社会活动的日趋复杂化,增大了决策难度。需要全面、正确的信息作为决策的支持。

  1. 保障有效控制,保证系统秩序

控制是保障各个社会组织有利和高效地获得和利用信息资源的监控及实施调节行为地过程。控制的整个过程离不开信息,信息是实现有效控制的灵魂。各个社会成员只有在信息交流通畅及时地情况下,依据所获得的准确信息来行使各自地职责,才会使整个系统处于有序状态。

  1. 发挥参考作用,失去知识创新

信息是知识的源和生产发展的催化剂,信息中包含有大量人类实践活动地成果和教训。人们对各种客观事实和社会现象地解释,论证和总结,比较集中的反应了人类地研究成果。因为信息对我们的科学研究和社会实践均有广泛参考作用。通过相关信息,可对所选项目是否具有创新性做出判断,避免重复选题,并参考他人地研究方法,加快科研地进程。

信息的类型

在这里插入图片描述

基于广义信息概念的信息分类

根据信息的产生,可分为社会信息、自然信息

社会信息——在社会实践活动中为生存、生产和社会发展而产生、处理和利用的信息
自然信息——自然界中事物变化特征以及事物之间的内在关系的反映

根据信息运动状态,可分为自在信息、自为信息、再生信息
自在信息——没有进入人的认识领域,未被反应和把握的纯自然状态信息(未把握住的)
自为信息——人这个主体所感知的信息,是已被把握住的自在信息(把握住的)
再生信息——主体对自为信息经过加工制作后,向外界输出的信息,是主体反应客观而形成的观念性信息和思维信息

基于狭义信息概念的信息分类

按媒体类型分——印刷型信息、缩微型信息、视听型信息、机读型信息

印刷型信息——以纸张为媒介,纸质文献在便携,阅读方便,可长期反复使用上显示其特有优势

缩微型信息——以感光材料为媒介,以缩微照相为记录手段
优点——信息存储密度高,文献体积小,便于收藏,保存和传递,能安全存储资料
缺点——必须借助辅助设备才能阅读,不方便携带,保存条件要求严格,难以普及

视听型信息——声像型信息,以磁性材料和感光材料为存储存储介质
优点——声情并茂,形象逼真,直观性强,动静交替
缺点——需要借助一定的设备才能使用

机读型信息——通过编码和程序设计,以机器语言存储在磁盘,光盘等介质上,并依赖于计算机输出的信息
优点——存储量大,查找快速方便。网络信息是一种机读信息。

按照信息的加工程度分(零次、一次、二次、三次)

零次信息指在人际交流中口头携带和传播的信息
零次信息——人际交流中口头携带和传播的信息,产生于交流过程
优点——选择性和针对性较强,交流速度快,反馈及时
缺点——带有很大偶然性,而且未经记录和加工,不便于积累于检验,获取难度大

一次信息指未经过加工或粗加工的原始信息资源,也称原始信息,是人们在社会实践活动中直接产生或得到的各种数据、概念、知识、经验及总结。
一次信息——原始信息,未经加工或粗加工的原始信息资源
人们在实践过程中直接产生或得到的各种数据、概念、知识、经验和总结
优点——价值高、数量大。是最基本的信息,具有重要的参考和使用价值

【二次信息】是以一次信息为依据进行加工整理而形成的信息,是对一次信息浓缩或有序化的产物。在信息检索中,二次信息的主要表现形式有目录、文摘、索引等,有时也称二次信息为检索工具
二次信息——一次信息未依据进行加工整理并使之有序化而形成的信息,是对一次信息浓缩或有序化的产物。(目录、文摘、索引)也称为二次信息为检索工具。
特点——易于存储检索传递和使用,具有较高的使用价值。具有浓缩性、汇集性、有序性、系统性、工具性等特点。具有传递、报道信息的功能

【目录】指对图书、期刊或其他单独出版文献的特征进行揭示和报道,并按照一定的方法加以编排的二次信息。
【文摘】以单篇或单本文献为报道单位,不仅记录一次信息的外表特征,还要客观地阐明深入的信息内容,是对原始信息的浓缩,有助于我们对原文的了解。
【索引】是将原始信息中的各种知识单元进行抽取,按照一定的原则和方法进行排列的二次资源。这些知识单元可以是篇名、人名、名词术语、关键词、分子式等等。二次信息具有传递信息、报导信息的功能,更重要的是为查找一次信息提供线索。它具有系统性、工具性等特点。

三次信息——在对零次信息、一次信息、二次信息进行分析研究、加工提炼和概括综合研究后而形成的信息(综述、述评、进展报告、学术年度总结等)综述和述评是三次文献最基本的两种形式。
特点——信息量大、综合性、系统性强、系统性好、参考性、针对性等特点
综述——将大量分散的有关特定课题的文献、事实和数据进行归纳、分析、综合、筛选。以简练的文字扼要叙述出来,内容十分开过,述而不作是撰写综述的一般要求。综述要客观全面的整理,分析。
述评——针对某一学科或者某一问题,全面系统的总结各种情况、观点和数据,并给予精辟的分析评价。有述有评是述评最为突出的特点。

综述】即综合性叙述,将大量分散的有关特定课题的文献、事实和数据进行归纳、分析、综合、筛选,以简练的文字扼要叙述出来,内容十分概括。“述而不作”是撰写综述的一般要求,综述要客观全面地整理、分析和总结现有信息,而且对此不加评论。
述评】指针对某一学科或某一问题,全面系统地总结各种情况、观点和数据,并给予精辟的分析评价,“有述有评”是述评最为突出的特点。综述和述评能够帮助人们用较少的精力和较短的时间,对有关课题的内容、意义以及历史、现状等有一个简明的了解。

按照信息内容分

经济信息、科技信息、政务信息、文化信息、教育信息、军事信息等

按信息出版发行特点

出版正式信息——图书、期刊、报纸等
半/非正式出版信息——特种文献/灰色文献 不经过公开出版物 流通渠道、不大量发行、为一部分用户使用的内部文献信息资料(会议文献、学位论文、政府出版物、研究报告、档案、专利文献、标准文献等)

 正式出版信息指公开出版发行的信息,主要包括图书、期刊、报纸等。
图书:据联合国教科文组织的规定,49页以上装订成册的印刷品称为图书,5~48页的称为小册子,4页以下的称为零散资料。凡正式出版的图书均有国际标准书号ISBN(International Standard Book Numbers)
 非正式出版信息,也有人把它称为灰色文献,指不经过公开出版物流通渠道、不大量发行、为一部分用户使用的内部文献信息资料。它具有信息量大、形式多样、载体不固定等特点。非正式出版的信息包括:会议文献、学位论文、政府出版物、研究报告、档案、专利、标准等。

期刊 periodical (杂志 journal、连续出版物 serials)

是一种具有统一名称、固定版式、统一开本、连续编号,汇集多位著者的多篇著述,定期或不定期编辑发行的出版物

期刊的主要检索工具(数据库)

  • 中文期刊全文数据库《中文科技期刊全文数据库》(维普)、《中国期刊网全文数据库》(CNKI)、《中国数字化期刊群》(万方)、中国国家科技图书文献中心(NSTL)的期刊数据库、读秀等
  • 外文期刊文摘数据库 SCI(ISI Web of Science)
  • 外文期刊全文数据库 Springer、ProQuest Library

网络环境下的信息变化

在这里插入图片描述
互联网是全球性的,最具影响力的计算机互联网络,也是世界范围的信息资源宝库,它造就了我们新的工作与生活方式,对整个社会信息交流方式和信息组成结构产生了巨大的影响

  • 互联网引发了信息新的出版形式——网络出版
  • 形成了新型的网络信息资源,网络出现依赖,人们捕捉和获取信息的方式发生了根本性变革
  • 互联网使人类传统的信息交流方式发生了根本变化
    表现在 互联网的信息交流呈现出明显的开放性和广泛性
    信息交流的方式显现比较强的交互性和实时性。互联网是一种双向式的信息交流活动,用户不仅是网络信息资源的消费者,同时也是生产者和提供者
  • 互联网推动了信息处理技术的发展
    使信息易于存储、分析和传输,并可以进行无限量复制。并对多种信息形式进行综合处理,给人类的思想表达、记录、交流和传播带来了比较深刻的影响

因特网对信息的影响

  • 因特网引发了信息新的出版形式——网络出版,形成了新型的网络信息资源
  • 因特网使人类传统的信息交流方式发生了根本性的变化
  • 因特网推动了信息处理技术发展

网络环境下信息的新特点

  • 信息类型多样化
  • 信息的数量和内容都得到了极大的丰富
  • 信息在分布上呈现出明显的分散性
  • 信息共享程度提高

信息检索方法

直接浏览法
常用法
追溯法
综合法

信息检索系统

信息系统的定义——根据特定的信息需求而建立起来的一种有关信息搜集、加工和检索的程序化系统。主要目的是为人们提供信息检索服务。(工具书、数据库或搜索引擎等)

信息检索系统包括信息的存储(输入)和获取(输出)两部分

信息检索系统具有对信息的输入功能、存储功能、处理功能、输出功能以及控制功能。一般来说信息检索包括6个主要的子系统

影响信息检索效果的因素

  • 著录标引的质量 标引的准确性关乎信息检索的查全率和查准率,关乎信息存储的质量
  • 检索语言的性能 检索语言是沟通档案文献存储和查找两个过程的桥梁,对于特定需求信息纳入检索系统的信息。集合的准确匹配具有直接的影响。性能好的检索系统语言有助于提高档案,检查系统的性能和质量。

信息检索的概念和作用

在这里插入图片描述
信息检索】通过一定的方法从已存储的信息中检索出与用户提问相关的文献、数据、事实的过程,即根据用户的特定要求找出所需信息的过程。

原理 信息检索原理是指将特定的信息需求与存储在检索系统的检索标识进行异同的比较和匹配,选取两者相符或者部分相符的信息予以输出。

类型

  • 文献检索Document Retrieval (相关性检索)
  • 数据检索Data Retrieval (确定性检索)
  • 事实检索fact Retrieval (确定性检索)

信息检索经历的发展阶段

  • 手工检索直接发源于图书馆的参考咨询工作和文摘索引工作。主要检索工具是纸本工具书。
  • 脱机批处理检索
    这一时期计算机还未连接通信网、也没有远程终端设备,主要是利用计算机进行现刊文献的定题检索和回溯性检索。
  • 联机检索阶段
    数据库管理和通信技术的发展,脱机批处理阶段进入联机检索阶段。
  • 光盘检索阶段
    一种新型信息载体激光光盘在信息检索系统中的应用。
  • 网络化联机检索阶段
    随着计算机技术和网络技术的发展,计算机检索经历了脱机检索、联机检索、光盘检索和网络检索四个阶段。在当今网络环境下,计算机检索将发挥更大的作用,更好地满足人们日益增长的文献信息需求。

信息检索的意义与作用

在这里插入图片描述
信息检索是有效获取人类智力资源的重要手段,是连接信息生产者和信息需求者的通道和接口。具体作用表现在:

  • 信息检索是有效利用信息资源、实现其最大价值的科学方法
  • 信息检索是再学习的工具,是获取知识的有效途径
  • 信息检索能有效地提高科研工作的效率,节省人力物力及时间

信息检索系统

概念指依据特定的信息需求建立起来的一种有关信息搜集、加工、存储和检索的程序化系统,其主要目的是为人们提供信息服务。
组成要素信息、检索技术设备、检索语言及方法

信息检索系统的构成

信息选择子系统、信息索引子系统、词表管理子系统、检索子系统、用户同系统之间交互子系统、匹配子系统。

信息检索系统的分类

按照信息检索的实现手段,可将信息检索系统分为手工检索系统(书本式和卡片式)和计算机检索系统(硬件、软件、数据库)
国际上一般把数据库分为两种:参考数据库和源数据库

信息检索效果

信息检索效果是指信息检索系统检索的有效程度,它衡量了检索结果对用户需求的满足程度,是检索系统性能的直接反映。

目前,信息检索效果主要从三个方面进行评价。

  • 检索结果有效性评价,主要以查全率和查准率为评价标准;
  • 检索系统实用性的评价,包括系统对用户是否需要,是否实用,有多大的实用效果,即检索的社会效果的评价,需要应用社会学方法;
  • 检索费用——效率评价,即检索的经济效果的评价,包括检索系统完成检索服务的成本及时间消耗,需要应用经济学方法。

据美国学者克莱弗登的研究,评价信息检索效果的指标主要有六个:收录范围、查全率、查准率、响应时间、用户负担和输出形式

影响检索效果的因素:(重点理解各个方面的因素是如何影响检索效果的)

  • 标引的质量
  • 检索语言的性能
  • 检索途径的数量
  • 检索策略的优劣
  • 检索人员的素质
发布了68 篇原创文章 · 获赞 22 · 访问量 7124

猜你喜欢

转载自blog.csdn.net/qq_40892702/article/details/105273731