书城社会科学档案信息检索
17943500000041

第41章 计算机信息检索系统的类型

目前,计算机信息检索已成为广大用户获取信息的主要方式,也是档案信息检索的发展方向。如何快速、准确及有效地检索到所需信息已成为日益突出的问题,了解各种信息检索系统的特点是实施信息检索最基本的前提。根据信息存取载体及渠道的不同,信息检索系统可分为联机检索系统、光盘检索系统和国际互联网等类型。这三种是最主要、最常用的类型,也是本节要重点介绍的内容。

一、联机检索系统

联机检索系统就是供用户或信息检索人员利用终端设备,经过通信线路(电话线、卫星通信线路、通信网络、信号转换设备等)与主机检索系统相连,运用特定的检索指令进行人机对话,以获取所需信息的系统。联机信息检索系统允许用户以联机会话的方式直接访问系统及其数据库,检索是实时(REALTIME)、在线(ONLINE)进行的,并在检索过程中可随时调整检索策略。这种系统具有分时的操作能力,能够支持许多相互独立的终端同时进行检索。并且采用了实时操作技术,用户的提问一旦传到主机被接收后,计算机能及时处理、即刻回答,将检索结果很快传送到用户终端,用户可以浏览得到的信息,随时修改提问,直至得到满意的结果。

(一)联机检索系统的构成

一个完整的联机检索系统通常包括检索终端、通信网络和联机检索中心三个部分。检索终端可以是由显示器、键盘和打印机构成的标准终端,也可以是电传终端,还可以是微机终端。检索人员或用户利用该设备将信息需求传递给主机,并接受主机传递回来的检索结果。通信网络是检索终端与主机检索系统相互传递信息的桥梁。通常有公用电话网、专用数据通信网、公用数据网等几种类型。联机检索中心的作用类似于图书馆的书库,是信息的存储中心,由中央计算机、联机数据库、检索与管理软件及相应的检索服务体制组成。

(二)联机检索系统的文档结构

联机检索系统中的数据库常常又被称为文档。文档是文献或数据记录的集合。每一条记录都由若干字段构成。有些字段因内容较多,还可进一步划分为若干子字段。

记录和字段。记录就是文档中有关一个整体数据的集合。它类似于档案著录卡片目录中的一张款目。记录中的每一个项目称为字段(FIELDS)。比如,责任者字段、题名字段、摘要字段等。

文档。若干个记录构成的信息集合称为文档(FILE)。文档有倒排文档和顺排文档之分,大部分联机信息检索系统都是典型的倒排文档检索系统。

顺排文档是指文档中的全部记录按顺序一个接一个地存放,也称主文档。记录的物理位置通常由记录的键值(通常是记录的流水号)决定,记录之间的逻辑顺序和物理顺序一致。这种存储方式决定了对记录的存取只能顺序进行,存取时间与数据的物理位置有关。

倒排文档是指把数据库中记录的一切可检字段或属性值(称检索标识,如作者、主题词等)抽出,按某种顺序重新加以组织后所得到的一种文档。把检索标识抽出,其后收录该检索标识的不同文献号,构成检索标识与文献号之间的一对多的关系,然后再把检索标识按照某种顺序排列,就形成了倒排文档。

(三)联机检索系统的优势和劣势

1.数据库数量多,且质量较高

各大联机检索系统不仅是数据库提供者,也是数据库生产者。所提供的基本上是各领域的核心、权威数据库,数量从几十个到数百个不等,涉及各个学科以及生活的各个领域,信息资源丰富且经过严格的加工、处理和组织,可靠性和准确率较高。

2.检索速度快

联机检索和网络检索不同,主要是由专业的检索人员来完成,这些专业人员一般都具有熟练的联机检索系统操作技能、一定的专业知识和外语水平,而且联机检索是以实时方式进行,从检索提问的输入、调整、修改到获得最终结果的整个过程一般只需几分钟至十几分钟。

3.组合方式多样,查全率和查准率高

联机检索系统拥有庞大的数据库资源,所收录的信息都是经过人工处理的,同时,它提供多种途径的检索方式,能够从不同的角度满足用户对信息检索的需求。且内容全面,经过严格的组织和处理。检索一个课题可随机改变检索策略,调用多个数据库,因而可以把交叉文档中的有关资料检索出来,这是手工检索难以办到的。在一系列系统的检索技术、检索策略的保证下,它既能满足要求查全率较高的课题,也能满足查准率较高的课题。

4.安全性能高

联机检索系统都是固定地属于某一个机构或公司,集中管理的模式,在很大程度上保证了检索系统的安全性能,确保了数据的稳定性和可靠性。

5.灵活性相对比较差

联机检索模式是主从式,即所有的工作都在主机上进行,主机负担重,一旦主机瘫痪,整个系统都处于瘫痪状态,因此对主机的性能要求极高。另外,联机网络的扩展性和灵活性较差。

6.费用昂贵

联机检索按时计费的方法,使其检索费用极其昂贵,因此,要想利用有限的经费收到事半功倍的效果,不仅要熟练掌握所检索系统的操作指令,还必须对其数据库的信息收录范围、时间、所提供的检索途径等有一定了解,这样才能合理选库,正确使用检索指令,从而得到满意的检索结果。

(四)联机检索系统提供的服务

1.定题情报服务(SELECTIVEDISSEMINATIONOFINFORMATION简称SDL)

这种服务是用户只需一次输入提问检索式,用户的检索式就被长期保存在检索系统主机中,然后每当数据库增加或更新记录时系统将自动按检索式将最新文献检出,提供给用户。这种服务对及时了解某一专题的最新研究水平及发展动向非常有用。

2.回溯检索(RETROSPECTIVESEARCHING简称RS)

这种服务是帮助用户查找过去某个时间或某个时间至今的文献资料。这种服务可以使用户全面了解某一课题在某一段时间中发展情况,对申请专利、课题开题、科研项目鉴定、撰写综合性论文及编写教材等具有参考价值。

3.联机订购原始文献

用户通过联机检索得到的结果一般都是二次文献信息,即文摘、题录或索引等,当需要的文献在国内找不到原文(国内没有订购)时,可以通过终端向联机系统订购原文的复制件。

4.特定专题的信息检索服务

联机检索系统(尤其是一些比较著名的国际联机检索系统)的信息资源具有专业性和规模性特点,因此它是检索专业性要求较高的特定专题信息的理想工具。

5.电子邮件服务

便于用户与用户、用户与系统之间互相交流检索经验。

6.光盘服务

可以与联机信息检索配合使用,利用光盘进行追溯,再以联机检索作为补充。

(五)世界主要联机检索系统简介

目前世界上比较著名的联机检索系统有:美国的DIALOG系统、ORBIT系统、BRS系统、MEDLINE系统、欧洲的ESA-IRS系统,日本的JICST系统,德美日联合开发的STN系统等。下面介绍 DIALOG、ORBIT、ESA-IRS、STN这几个著名的国际联机检索系统。

1.DIALOG系统

美国的DIALOG系统是目前世界上最大的一个国际联机检索系统,目前系统拥有近600个联机数据库,其内容涉及40多个语种和占世界发行总量的60%的6万多种期刊。学科范围包括综合性科学、自然科学、应用科学、工艺学、社会科学、人文科学、时事报道和商业经济等。其数据来源于各种不同的图书、报纸、杂志期刊、技术报告、会议论文、专著、专利、报表、目录、手册等上的信息。数据库类型有书目数据库、指南数据库和各种源数据库。该系统始建于1966年,1972年开始投入商业性运营,1981年6月正式成为洛克希德公司的一个独立子公司,系统中心设在美国加利福尼亚州的帕洛·阿尔托(PALO A1TO)市。该系统除与TYMNET和TELENET等公用数据网连接外,还加入了其他网络,如日本和英国的专用线、美国和加拿大的VNINT数据网等。用户可以使用终端机检索,也可以使用电话直接拨号或电传机进行检索。它的用户之多,遍及世界80多个国家约10万个终端。

DIALOG的优势不仅体现在信息资源,更在于其具有很高的权威性。DIALOG数据库的提供者均为世界各国著名专业信息机构、出版社和新闻媒体,如美国化学文摘社、路透社、道琼斯、标准普尔等。它不仅可以提供即时信息,还可以回溯检索几年甚至几十年前的历史数据,便于用户全面了解整个课题的发展过程,以及在不同历史阶段的研究状况。

2.ORBIT系统

美国ONLINERETRIVALOFBIBLIOGRAPHICINFORMATIONTIME-SHARE的缩写,原意为文献信息分时联机检索,是目前世界上第二大联机检索系统。该系统拥有120多个数据库、6000万篇文献,约占世界机读文献总量的1/4,每月更新的数据中有20个左右的文档与DIALOG系统相同。它通过卫星通信网络为世界各地的用户服务。目前,ORBIT系统的数据库类型有:书目数据库、指南或词典型数据库和全文型数据库等,内容涉及社会科学、商业、经济、自然科学和工程技术等领域。ORBIT系统数据库的最大特色在于,汽车工程、石油、化工、生物化学、环境科学、安全科学、运动科学等文献收录比较全面,并且对一批使用价值较高的数据库拥有独家经营服务权,如:TULSA(石油文摘)、APILIT(炼油文摘)、PIRA(造纸、印刷、包装文摘)等,因此,ORBIT系统的服务受到各国科技人员的重视。

3.ESA-IRS系统

ESA-IRS(EUROPEANSPACEAGENCY-INFORMATIONRETRIVALSERVICE),即欧洲空间组织情报检索中心,它是欧洲最大的联机检索系统,也是世界上第三大联机检索系统,总部设在意大利罗马。该系统建于1965年,现有数据库140个,收录文献近6000万篇,专业范围有社会科学、管理、科技、卫生、农业、宇航工程等。它拥有的数据库中,虽然近半数与 DIALOG系统相重复、14%与ORBIT重复、10%与BRS重复、25%与DATA-STAR重复,但也有自己所独有的数据库,如PASAL(法国文摘通报)、PRICEDATA(原材料价格数据库)等,以弥补D1ALOG系统对欧洲数据库收录不全的缺陷。

4.STN系统

STN(THESCIENTIFICANDTECHNICALINFORMATIONNETWORK)系统全称是国际科技信息网络,该系统创建于1983年,1986年开始正式使用,由德国卡尔斯鲁厄能源、物理、数学专业信息中心(FIZ-KARLSRUHE)、美国的化学文摘社(CAS)和日本的科技信息中心(JICST)合作建成。STN系统打破了国际联机检索中独家经营的常规,采用分布式主机形式。主机分别位于卡尔斯鲁厄、哥伦布及东京,通过海底电缆相连,用户只需与其中一个主机相连,就可实现对三台主机同时访问。它虽然比DIALOG系统晚14年,但它的发展势头很快,目前已拥有200多个数据库,文献总量为1.3亿篇。专业范围涉及化学、化工、数学、物理、能源、冶金、建筑、国际专利及厂商信息等。数据库除部分与DIALOG系统重复外,在化学、化工、建筑、日本科技文献、专利等方面有自己的特色,如STN系统中的CA数据库带有文摘(DIALOG系统中该库不带文摘),还有化学物质结构图形数据(REGISTRY),目录、图像、全文三结合的德国专利数据库(PATDPA),化学期刊论文全文数据库(CJACS)等。它是世界上第一个实现图形检索的系统,能够实现化学物质的结构检索。由于CAS是3个服务中心之一,它生产的所有的数据库都放在STN系统中,因此,检索化学化工方面的文献,可首先考虑使用STN系统。

二、光盘检索系统

光盘检索系统又称光盘数据库检索系统,就是由计算机及其输出设备、光盘驱动器、光盘系统软件、光盘数据库和检索软件共同组成的一种计算机信息检索工具。

(一)光盘的类型

光盘是一种用激光来记录和再现信息的高密度存储介质。它是继纸张、缩微胶片和磁存储器之后出现的一种新型的信息存储载体,是一种集激光、计算机技术以及数字通信技术于一身的新兴的综合技术。光盘和计算机的结合给人们提供了一种崭新的检索环境,它具有信息存储密度高、容量大、读取速度快、存储信息类型多等优点,备受人们的青睐,光盘技术以其独特的优点为当今信息社会提供了理想的信息存储和管理手段,从而使传统的信息存储、传送、管理和使用方式发生了根本的变化。由于光盘检索免除了联机检索必须支付的电讯费和联机系统使用费,使光盘检索的费用大大低于联机检索的费用,因此,光盘检索得到了迅速的发展。光盘检索既可以进行单机检索,又可以实现网上共享。同时,光盘检索系统除可提供追溯检索、定题服务外,还可用于“自建库”、培训用户和作联机检索前预处理。

目前,光盘的类型主要分为三种:

———只读光盘(COMPACTDISC-READONLY MEMORY,简称CD-ROM)这种光盘只允许用户反复使用盘内信息而不能更改其中的内容,同时也不能输入其他信息。它是大型脱机式数据库的主要载体。它的特点是将数据先写到母盘上,然后利用母盘大量复制供发行。目前这类光盘的技术比较成熟,信息存储密度比磁盘等介质高得多,应用十分广泛。在光盘检索系统中目前大量使用的只读光盘(CD-ROM),通常将检索软件及数据库装在盘片上制成了光盘数据库。

———一写多读光盘(WRITEONCEREAD MANY,简称 WORM)这种光盘不仅可以反复读取其中的信息,还可向其写入信息,但信息一经写入,便不能删除与修改。可存储文字信息和高质量的图像,适用于现场记录数据及大批量不需修改的信息存储与检索。如自建数据库及电子档案,但盘片和驱动器价格较高,且尚未标准化。

———可擦写光盘(FRASABLEDRIVEREAD MANY,简称DRAM)这种光盘具有磁盘的可写可改可删特性,是一种可再生的信息存储介质,可弥补前两种产品的不足。将信息输入光盘并用计算机加以处理,就形成光盘数据库。

(二)光盘数据库的类型

1.书目型数据库(BIBLIOGRAPHICDATABASE)

又称目录型数据库。实质上是一种二次文献数据库,其中内容包括:目录、索引、文摘等等。其作用是指导读者查找一次文献,可以说是读者通向一次文献的桥梁。书目型数据库主要以期刊论文、图书、学位论文、报刊、科技报告、政府出版物等为揭示报道对象,通过对这些文献信息内部及外部特征的揭示和报道,指引用户查找一次文献的线索和方向。书目型数据库包括一些代表属性的字段和子字段,这些字段可以作为检索有关文献的检索点。字段一般有主题性字段:题目、题名、叙词、分类代码、文摘、全文、标引词等。另外,还有一些非主题性字段,例如:作者、作者单位、语种、出版年份或更新日期等。

2.名录指南型数据库(DIRECTORYDATABASE)

这种类型的数据库主要是对一些公司、团体、企业、研究机关、名人、化学物质等作一简单的介绍。通过这种数据库可以查到公司、团体、企业、研究机关的地址、电话号码、产品目录、研究项目、名人经历、物质名称、分子式等有关内容。对于档案信息的指南型数据库可以对档案保管机构,如综合档案馆、文件中心等的基本情况、馆藏档案和资料的内容、查阅利用档案的方法及有关信息进行介绍。

3.数值型数据库(NUMERICDATABASE)

数值型数据库是一种机读数值型数据、统计数据、物理数据和化学数据的记录集合。由各种统计数据、调查数据和经过处理的各种数据表格组成,这种数据库除包含各种数值型数据外,有时也包含文字,但仅包含用来定义数字所必需的少量文字。在经济商情、公司、企业、产品、金融等方面发展很快。

4.全文型数据库(FULL-TEXTDATABASE)

全文型数据库是一种机读型一次文献数据库。如新闻报道、法律法规、期刊论文、辞典、百科全书等等。用户通过这些数据库既可以检索某些章节、段落的内容,也可以查阅原始文献的全文。这种数据库规模大,内容丰富,除文字外,还包括图像,它是集前述书目型数据库、名录指南型数据库、数值型数据库等数据库于一体的大成之作。建立全文型数据库也是档案信息数据库建设的重点内容。

5.多媒体光盘数据库(MULTIMEDIADISCDATABASE)

这种数据库是利用多媒体技术,不仅向读者提供文字、图形等数据,还提供各种音频、视频服务,使用户不仅能查阅文字等资料,还可以听声音,观图像,获得更为丰富直观的多媒体信息。

(三)光盘信息检索系统的优点

(1)具有联机检索所不具备的优点:它检索系统配置简单、不受机时限制、检索费用低、操作简便灵活、允许反复修改检索策略及充分的屏幕显示,直至检索到满意的结果。由于是在微机上运行,建立光盘检索系统只要一台光盘驱动器和所需的盘片,不需经过通信线路,即可构成系统。这就避免了使用联机检索所必须使用的通信设施,并可节约使用联机系统时的电讯费、联机系统使用费,同时也可免除远距离电讯传输时可能出现的通信失误。光盘是批量生产、成本较低,且光盘的费用是一次性投入,可多次任意使用,利用率越高,分摊的成本越低。一旦订购了光盘数据库,光盘检索系统的使用量就没有限制,也就没有太大的经费压力。对于通信网络尚不发达、联机检索费用昂贵或没有国际终端的地区和单位,光盘检索的优势就格外突出了。

(2)有利于资源共享。用户可以很方便地将光盘上的部分数据套录到软盘或其他计算机信息系统里,变成本部门或个人的小型数据库以便随时查询,提高了资源共享的程度。

(3)有利于用户培训。用户可在光盘上进行必要的人机对话,了解检索范围、检索策略和有关指令,优化检索策略,这样可以大大减少机检时间,节省上机费用。

(4)光盘数据库可以提供文本、图像、声音和动态图像等信息。界面生动、直观,可以提高读者阅读的兴趣。

(四)部分光盘检索系统简介

自1985年世界上第一个商品化的光盘数据库BIBLIOFI1E(美国国会图书馆机读目录)问世以来,光盘数据库得到迅速发展,到目前已经形成了数量庞大、种类繁多的光盘数据库群。从数据库类型上来说有书目型、全文型、事实型、多媒体型等,从数据库收录的学科范围来说有综合性光盘数据库、专门性光盘数据库,用户检索时可根据不同的信息需求选用不同类型的光盘数据库。

1.化学文摘光盘数据库

化学文摘(CHEMICALABSTRACT,CA)光盘数据库由美国化学学会于1996年推出,收录内容对应于书本式《化学文摘》,是涉及化学学科领域最广、收集文献类型最全、提供检索途径最多的世界性检索工具。该数据库收录了世界范围内有关生物化学、物理化学、无机与有机化学等众多化学、化工领域成果,以及医药、生物、轻工、冶金、物理等领域的科技期刊、专利文献、会议文献、学位论文、科技报告和图书等科技文献,年文献量达81万多条,其中约10万条专利数据。数据库文献内容及索引信息按月更新。

2.英国科学文摘数据库

英国科学文摘(INFORMATIONSERVICEINPHYSICS,E1ECTRONICSTECHNOLOGY ANDCOMPUTERAND CONTROL,INSPEC)数据库是由英国电气工程师学会(INSTITUTEOFELECTRICALENGINEERS,IEE)提供的世界著名的电子、物理和计算机信息数据库,是世界著名的检索刊物———英国《科学文摘》(SA)的机读版,覆盖了全球发表在相关学科领域的4200种期刊(其中1/5为全摘),2000种以上会议论文集以及技术报告、学位论文、图书等多种出版物的摘要和索引,每季度更新,文献来自于80多个国家和地区,涉及29种语言,收录年代自1969年开始,目前数据量已达660万条记录。

3.美国《科学引文索引》

《科学引文索引》(SCIENCECITATIONINDEX,简称SCI)是一种多学科的科技文献检索工具。由美国科学信息研究所(INSTITUTEFORSCIENTIFICINFORMATION,简称ISI)主办。1961年创刊,以布拉德福(S。C。BRADFORD)文献离散律理论、加菲尔德(E。GARFIELD)引文分析理论为主要基础,通过论文的被引用频次等的统计,对学术期刊和科研成果进行多方位的评价研究,从而评判一个国家或地区、科研单位、个人的科研产出绩效,来反映其在国际上的学术水平。因此,SCI是目前国际上公认的最具权威的科技文献检索工具。

所谓引文(CITATION),就是被引用的文献,即原始文章所附的参考文献(REFERENCE),引文索引(CITATIONINDEX)就是以引文著者的姓名为标目,用来检索该著者被别人引用的文献的数量和内容的一套索引。引文索引为SCI所独创。SCI收录了自然科学的各个学科,包括化学、物理学、生物学、环境科学、医学、药学、工程技术、农业等,侧重基础科学的研究方面。其文献来源涵盖45个国家或地区的最具影响力的期刊5600多种,收录的主要是期刊论文和学术论文。

4.中国生物学文摘数据库

中国生物学文摘数据库经中国科学院立项,由中国科学院上海文献情报中心于1987年研建,是目前国内容量最大的生物学文献综合性文摘数据库。该数据库收录中文生命科学期刊近800种以及专著、会议录、专利等文献,年文献报道量1万条左右,累计数据量近12万篇,数据年限为1985年至今。内容涉及普通生物学、细胞学、遗传学、生理学、生物化学、生物物理学、分子生物学、生态学、古生物学、病毒学、微生物学、免疫学、植物学、动物学、昆虫学、人类学、生物工程学、药理学及其相关科学技术领域。

5.中国学术期刊(光盘版)(CAJ-CD)

中国学术期刊(光盘版)(CAJ-CD)由国家新闻出版总署批准创办于1996年,清华大学主办,中国学术期刊(光盘版)电子杂志社编辑出版。这是我国第一部,也是目前世界上最大的集成化全文(FULL-TEXT)电子期刊。CAJ-CD已择优全文收录了我国正式出版的学术类、科技类、政策指导类中英文期刊约7000种。该光盘按学科分为基础科学、工程科技Ⅰ辑、工程科技Ⅱ辑、农业科技、医药卫生科技、信息科技、哲学与人文科学、社会科学Ⅰ辑、社会科学Ⅱ辑、经济与管理科学十个专辑,按月与印刷版基本同步出版发行。

6.《中国大百科全书》光盘

《中国大百科全书》是我国第一部大型现代综合性百科全书,其光盘版采用非线性的超文本数据库结构来表达大百科条目之间的复杂逻辑关系,具有文字数量大、图像量大、相关条目之间可跳转检索、多窗口、多路径、多级查询、迅速方便等特点,充分显示了电子版的优越性,全套共24张光盘。

7.中国学术会议论文数据库(CACP)

中国科技信息研究所自1985年开始收录由国家级学会、协会、研究会组织召开的全国性学术会议论文。1995年由万方数据公司制成中国学术会议论文数据库光盘。至今保持每年更新一次。中国学术会议论文覆盖自然科学、工程技术、农林、医学等多个领域,每年涉及600余个重要的学术会议,每年增补论文1.5万余篇。

8.《中国学位论文数据库》光盘(CDDB)

中国科技信息研究所是国家法定的学位论文收藏机构,自1980年以来,中信所收集了我国自然科学领域的博士、博士后及重点高校硕士研究生论文,1995年由万方数据公司制成CDDB光盘。该库每年更新一次,增补论文3万篇。

三、国际互联网信息检索

国际互联网上蕴藏着非常丰富的信息资源,内容涉及农业、生物、化学、数学、天文学、航天、气象、地理、计算机、医疗和保险、历史、大学介绍、法律、政治、环境保护、文学、商贸、旅游、音乐和电影等几乎所有专业领域,它是知识、信息的巨大集合,是人类的资源宝库。只要用户知道信息资源的服务器地址和访问资源的方式,并有访问资源的权限,就可以获得相关信息资源。随着互联网的广泛普及,人们越来越多地从网络中获取所需要的信息,互联网已经成为在世界范围内传播商业、科研、教育和社会信息的最主要的渠道。就档案信息而言,从国际互联网上查阅各国的档案信息虽然在现阶段也要受到一定的限制,如一些档案涉及国家利益或保密原则等,但对于已经公开的档案,互联网仍然是一条非常重要的检索档案信息的途径。但要从互联网上浩如烟海的信息中准确、及时、方便、迅速地找到并获得自己所需的信息,却并不是一件容易的事情。从20世纪80年代起人们就开发了诸如 ARCHIVE、WAIS、VERONICA等检索工具,从20世纪90年代中期起又出现了检索互联网信息资源的搜索引擎技术,并以此作为网络信息检索的主要途径。随着网络技术的不断发展,搜索引擎技术及相关网络检索工具也在不断地优化、改进,使用户可以更容易地获取他们所需要的网络信息资源。