书城社会科学档案信息检索
17943500000039

第39章 计算机信息检索概述

一、计算机信息检索的概念

计算机信息检索是指人们在计算机检索或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而再由终端设备显示或打印的过程。由此可见,为了实现信息检索,必须事先将大量的原始信息进行加工处理,并存储在计算机中待用。狭义的计算机信息检索仅指计算机信息的查找过程,即用户从机器存储的大量数据中查找出所需部分的过程。从广义的角度来讲,计算机信息检索包括信息的存储和检索两个方面。

(一)计算机信息存储

计算机信息的存储就是按照既定的方针、目的和标准,对大量的信息进行收集、加工、处理,使之从无序变为有序、从分散变为集中、从广泛性变为针对性(如针对某一学科或某一特定人群)、从不易识别变为特征化(例如标出原始信息的名称、主题、作者等),并用计算机可以识别的代码进行表示,用便于计算机快速存取的方式进行存储,构成可供检索的数据库。

(二)计算机信息检索

计算机信息的检索就是用户对检索课题加以分析,明确检索范围,弄清主题概念,然后用特定的检索指令来表示主题概念,形成检索提问标识,输入到计算机进行查找。查找的过程实际上是一个比较、匹配的过程,检索提问标识只要与数据库中信息的特征及其逻辑组配关系一致,则属“检索命中”,即找到了符合要求的信息。检索结果可以由终端设备显示或打印输出。对于用户而言,重点是学习和掌握信息的检索。

与手工检索相比,计算机信息检索是针对数据库进行的检索过程,是在人和机器的协同作用下完成的,匹配由机器执行。而人则是整个检索方案的设计者和操纵者。这极大地减轻了信息用户的负担,并且在一系列系统的检索技术、检索策略的保证下能达到较为理想的查全率和查准率。计算机信息检索系统提供的数据库资源丰富,更新速度快,经过严格的加工、整理,质量较高。

二、计算机信息检索的特点

与手工信息检索相比,计算机信息检索具有如下显著的优点。

(一)检索全面,主题广泛

提供计算机检索的数据源是数据库,由于数据库具有海量存储的特点,因此能检索到比手工检索更加全面和广泛的内容和主题,尤其是联机系统通常提供数十到数百个数据库的检索,涉及的主题更加广泛。如DIALOG系统装载多达570多个数据库,几乎覆盖了人类社会生活的各个领域,可满足各种各样的信息需求。因特网更是全球最大的信息资源宝库,信息内容包罗万象。不仅如此,联机信息检索还可通过受控语言系统,逐级调节检索的全面性,直至用户满意为止。

(二)检索速度快,反馈及时

手工检索查找课题的速度一般是以小时、天、周、月,乃至年计算,而利用计算机检索,其速度则是以秒、分计算。光盘检索一个课题,一般速度为5—10分钟,而国际联机检索系统的主机每秒就能执行几千万条指令。对每个用户而言,检索中等待的时间很短,系统对用户指令的响应通常只需要几秒钟,检索反馈极快,而且,用户可以根据系统的反馈,随时调节检索的深度,改变检索的大小范围,或者调整检索的策略。利用因特网上的 WEB服务也是如此,用户从浏览器上向WEB服务器发送请求,WEB服务器可在几秒钟内将数据传输到用户的浏览器,用户可随意浏览,或沿着超链接不断查找所感兴趣的信息。

(三)检索数据新

手工检索工具编制周期长,因而不能及时反映最新信息。而对计算机信息检索系统而言,信息的更新仅仅只是对系统数据库的增(APPEND)、删(DELETE)、修改(MODIFY)等基本操作,而且能将更新结果即时显示出来。在国际联机检索系统的大多数数据库一周至半月就更新一次,因特网上许多信息每天更新。这都使检索者获取信息的时效大大提高。

(四)检索途径多

从总体上看,手工检索途径有主题词、关键字、分类码、文献名、作者、机构、信息来源等。而具体到每一种工具书,其检索途径不外乎有正文所提供的一种检索途径及辅助索引所提供的一两种检索途径而已,而且这些检索途径相互独立,不能灵活组配使用,属于一种单向、静态的检索。计算机检索途径不仅多而且灵活,属于一种多维、动态的检索。它所具备的自然语言检索功能使用户能按自己所需来确定检索词。计算机信息检索采用布尔(BOOLEAN)逻辑运算,各类检索词之间可以灵活地组配。许多计算机信息检索系统,还可对词间位置关系以及词的片断(截词)进行相似性运算,能够满足多途径检索的要求,对于复杂的多元检索更为有利。

(五)使用方便,功能完善

使用 WEB浏览器,通过简便的检索操作,就可以利用 WEB搜索引擎,快速地查找因特网上的各种信息。光盘信息检索系统一般都采用菜单驱动的方式,使用极为方便,即使普通的用户也很容易掌握。此外,联机系统通常都有成熟的辅助功能以及联机帮助等,指导用户查找所需要的信息,操作选择也灵活多样。

(六)检索结果输出方式灵活,输出格式多样

检索结果可以直接输出,也可以选择性打印、存储或E-MAIL发送检索结果,有的还可以在线直接订购全文。

三、计算机信息检索发展

计算机从诞生至今已六十多年,计算机技术从帮助人们完成运算已经发展到在各个领域完成非常复杂的管理工作,计算机检索技术也经历了由简单到复杂,由单一到综合的发展过程。

(一)脱机批处理检索时期

据记载,最早的计算机信息检索系统雏形是美国海军兵器中心于1954年研制的。随着具有批处理能力的第二代计算机问世,计算机信息检索进入了生产性开发和实际应用的年代。在这一时期,批式检索是计算机信息检索的主要方式。批式检索虽然比手工检索快捷、方便,但用户不能与系统进行实时对话,不能及时地修正检索策略,并且,检索结果不能立即得到,必须等待成批处理或定期检索处理。因此,人们开始研制更便利的联机检索系统。

(二)联机检索阶段

所谓联机检索,就是用户使用终端设备,通过通信线路与中央计算机连接,直接与计算机对话进行检索,结果由终端输出。20世纪60年代初期,美国系统发展公司首次公开示范了以人机对话方式进行的联机检索,计算机通过电话线与终端设备相连,使用户在终端、在当地即可进行联机检索———人机对话。所谓人机对话就是用户在终端直接输入检索提问,计算机在联机数据库检索并立即显示检索结果,用户如对结果不满意,可随即修改检索提问重新检索。

1965年,美国系统发展公司开始研制交互式的联机检索系统,这种系统能够使用户直接同所检索的数据库进行会话式交流。1969年,世界上第一个大规模的联机检索系统RECON在美国的NASA(美国宇航局)诞生,标志着信息检索进入了联机检索的时代。1970年,美国洛克希德公司的DIALOG系统和美国系统发展公司的 ORBIT系统相继建成。此后不久,欧洲宇航局建立了ESA/IRS系统,美国书目检索服务公司的BRS系统也投入运行,成为当时著名的四大联机检索系统。这一时期也是联机检索服务朝商业化发展的阶段,大型信息检索系统不断出现,数据库大量增加,内容与类型向多元化发展,从早期的科技领域不断向人类生活的各个层面扩展。联机检索有以下几个特点:

(1)用户通过检索终端与通信网络直接与远程中央计算机相连,检索远程数据库内文献信息,这几乎是同时的、直接的,无需委托。

(2)在检索过程中是“人—机对话”式,可及时修改检索策略,及时显示、浏览文献信息。

(3)可根据用户的不同需求进行各种输出,及时取得检索结果。

(4)检索指令复杂,多为专业检索人员才能熟练使用。

联机检索经历了研究开发、地区性应用和国际联机三个阶段。联机检索随着计算机、数据库、通信网络技术的发展而迅猛发展。

(三)光盘信息检索阶段

进入20世纪80年代,随着社会对信息需求的日益增长,数据库的种类和规模发展很快,具有海量信息存储能力,并且体积较小、易于携带和保存的新型数据库载体———光盘应运而生,尤其是只读光盘CD-ROM作为光盘数据库的载体更为合适,因而获得了惊人的发展。光盘检索系统组成简单,使用方便,不受通信条件和时间的限制,只要有一机(计算机)、一驱(光盘驱动器)、一盘(光盘)就可以开始运行。在联机检索费用还比较高的条件下,光盘检索系统对用户有着较强的吸引力。用户使用光盘检索既可以反复修改检索策略以保证检索效果,又可以将光盘检索系统作为熟悉联机检索系统各种命令和操作的实习系统,以降低联机检索的费用。

近年来计算机技术、通信技术和网络技术发展较快,光盘数据库网络在全球得到了迅速的普及,一个局域网上的一组计算机,通过一定的应用软件和相应的硬件(光盘塔或光盘库)即可实现数据库的共享。网络化的光盘检索系统越来越多地出现在我们的生活中,极大地提高了光盘的利用率,同时信息检索更方便更迅捷。

(四)网络信息检索时期

20世纪80年代末,由于现代信息通信技术的发展,公共数据传输技术进入信息传递服务领域,使计算机信息检索发展成计算机网络信息检索系统。大型信息检索系统的主机变成了网络节点,各节点之间有远程高速通信线路彼此连接,从而形成纵横交错遍布全球的信息检索网络。目前90%多的国际联机检索系统都已进入INTERNET(计算机国际互联网),成为INTERNET上的节点。INTERNET是一个集合各个专业、各个领域、各种资源为一体的供网上用户共享的信息资源网,是世界上最大的信息资源宝库。网上资源不仅丰富而且检索快捷、方便,用户可以不受时空限制,利用就近入网计算机,就能进入世界各大检索系统,并能随意从一个联机检索系统非常方便地转换到另一个联机检索系统,自由地获取自己所需信息,真正实现了世界范围内的资源共享。

四、计算机信息检索发展趋势

(一)信息检索自动化技术

以人工智能为代表的信息检索自动化技术是网络信息检索工具的基本技术。网络信息检索自问世以来,自动化技术就占了主导地位。包括自动标引、自动文摘、自动分类等信息自动化技术极大地促进了检索效率的提高。信息自动化技术的发展取决于人工智能技术的研究发展程度。其中的自然语言分析和处理使人工智能与信息检索有着密切的联系。

(二)多媒体信息检索技术的成熟与发展

以显示多媒体为特点的万维网为非文本信息检索提供了良机。目前,包括音像检索、影像检索和声音检索的多媒体声像检索成为信息检索领域研究的热点。以前的声像信息必须通过文本信息的转换才能成为可检索信息,为了避免这种限制,基于声像内容的声像检索技术已经从实验室逐步走向实用化阶段,但也大多以检索静态信息居多。不可否认,随着技术的进步,多媒体检索必将成为一种通用的网络信息检索技术。

(三)个人化的检索工具和专业化的检索工具

通用的检索工具一般都具有永远无法弥补的缺陷,因此只是寄托于提高检索工具的标引和检索机制,收效不是很显但是著。有些研究者提出把改善检索效果的着重点从网络信息检索工具转向“智能代理”,它能够帮助用户选择检索工具、制定检索策略、进行检索操作、收集并整理检索结果,充当用户和网络信息检索的中介。“智能代理”的本质特点是体现了用户个人的信息需求,由“智能代理”根据用户的需求实现网络信息的定向化检索,可以从根本上提高检索专业化程度。

五、我国计算机检索技术的发展

在我国,计算机信息检索起步相对较晚,始于20世纪70年代中期。1975年我国首次引进国外文献数据库进行计算机检索的试验。1980年初,我国11个部委情报所联合驻港的海外建筑工程公司设立了我国第一台国际联机信息检索终端,通过香港大东电报局与美国的DIALOG和ORBIT系统联机。1981年底,北方科技情报所在北京与美国的DIALOG联机系统直接联机。1982年9月,冶金部、石油部、化工部等部委情报所也实现了与DIALOG和ORBIT系统的直接联机。1983年10月,中国科技情报所通过罗马远程数据通信线路与欧洲空间组织的ESA-IRS系统、美国DIALOG的和ORBIT系统直接联机。随后,华东工学院、上海交通大学等高校也纷纷建立了自己的国际联机检索终端。迄今为止,全国已有200多个联机检索终端与美国的DIALOG、ORBIT、BRS、MEDILARS,意大利的ESA-IRS,德、美、日三国合建的STN等20多个国际系统联机。

与此同时,我国开发的计算机信息检索系统也取得了可喜的成绩。1978年,中国科技情报所开始试建文献数据库和检索服务系统,初步实现了建库、编辑、排版和定题检索服务功能,只比日本晚两年。目前,中国科技信息所的联机检索系统汇集了科研机构、科技成果、科技名人、中外标准、政策法规等近100种数据库资源,信息总量达1100多万条,每年数据更新60万条以上,检索终端分布在全国各地。1984年,北京文献服务处联机信息检索系统建立并开始服务,该系统拥有文献记录1700多万篇,中西文数据库17个。1989年,中国科技情报所的联机检索系统、机电部情报所的联机系统、化工部情报所的联机系统先后开通,投入运营服务。国家级政府信息及各级组织的经济信息、金融、统计等也形成—定规模并开展服务。

进入20世纪90年代,光盘信息检索因其检索费用低廉,吸引了大量的国内用户,发展较快。同时我国的通信建设也有了长足的发展。1988年,原邮电部组建了我国第一个公众分组交换数据网。在北京、上海、广州设立节点机,在南京、武汉等8个城市设集中器,1989年11月组网运行,向社会开放数据通信业务,1990年底,该网已覆盖到全国的所有省会城市。到1996年底,我国的INTERNET建设已经形成了四大主流网络体系:中国教育和科研计算机网(CEMET)、中 国 科 学 技 术 网(CSTNTE)、中 国 公 用 计 算 机 互 联 网(CHINANET)、中国公用经济信息网即金桥网(CHINAGBN)。1998年以后,网络信息检索逐步进入我国信息检索领域并成为计算机信息检索的一个发展方向,越来越受到广泛的关注和使用。经过几十年的努力,中国互联网从最初的一个点、一条线成为一张网,截至2009年4月,中文网站数量达287.8万个,网页总数超过160亿个,国际出口宽带640286.67MBPS①。