书城教材教辅导读工作简明教程
15427500000033

第33章 数据库的检索(1)

(第一节文献数据的简介

一、文献型数据库

文献信息型数据库的存贮内容为各种文献信息资料。在数据库的产生与应用中,文献信息型数据库发展最早,应用也非常广泛。文献信息数据库应包括二次文献信息数据库和全文数据库。

1·二次文献信息数据库

这类数据库存贮某个领域经文献信息加工者加工的二次文献信息。如书目,文摘,题录等,以书目型数据库为例,它存贮某个领域原始文献信息的书目,包括文献信息的题目,作者,出处,文摘,主题等,大多数是印刷本检索工具的机读版。早期的文献信息数据库以二次文献信息数据库为主。通过对二次文献信息数据库检索得到的是文献信息线索而不是原始文献信息。

2·全文数据库

存贮文献信息内容全文或其中主要部分的数据库为全文献信息数据库,简称全文库。如新闻报道全文库,期刊全文库,法律全文库等。随着存贮技术,电子出版,光电扫描,全文检索等技术的发展,全文数据库的发展很快。通过对全文库检索得到的是原文献信息的信息,而且检索时每个有实际意义的词都可作为检索入口,直接面向终端用户。

二、光盘数据库

光盘技术是激光,计算机,数字通讯和光电集成电路等现代高新技术的结晶。光盘存储器以其高密度,高性能,多功能,多类型等突出优点而成为磁存储器之后更为新型的存贮和传播工具。光盘技术的诞生和发展,促进了光盘数据库的涌现以及以此为核心的光盘检索系统的不断发展,缓解了信息增长与信息需求的矛盾。

1·CD-ROM光盘数据库

CD-ROM光盘作为数据库的存贮介质,便形成了CD-ROM光盘数据库。20世纪80年代CD-ROM光盘数据库的出现代表着信息处理技术的惊人发展。CD-ROM光盘数据库与计算机相结合,给人们提供了一种崭新的检索环境和检索模式,对信息服务业产生了深远的影响。CD-ROM光盘的只读性和不可更改性对数据库的出版,发行和控制来说,是极其适宜的,有效地维护了数据库的稳定性和完整性。CD-ROM光盘作为大型脱机式数据库的主要载体,其优势主要有以下几个方面:

(1)有极高的存储密度和存储容量。每张光盘上存贮容量可达550MB,为软盘的1600倍,缩微平片的1200倍,相当于25万页A4复印纸的信息量。

(2)成本低,复制简便,易于传递,光盘的造价低且可大量复制,同时由于体积小,易于传递。

(3)数据读取速度快,便于检索,电子化处理功能强。

(4)使用寿命长,具有优良的存档特性。CD-ROM光盘具有较高稳定性,不易磨损,用它保存信息可达10~20年,而磁盘仅为1~3年。

2·国内外主要的文献信息型光盘数据库

由于CD-ROM光盘的上述优点及现代信息社会发展的迫切需要,使得CD-ROM光盘数据库在问世十多年时间里,发展速度惊人。1985年,第一张正式的CD-ROM光盘数据库产品BIBLIOFIL·E即美国国会图书馆机读目录的诞生,至1988年,国外光盘数据库产品200多种,1991年已达到1552种。我国数据库建设与国外相比有一定的差距,但也取得可喜的进步。1991年底,我国有126个单位引进了199种光盘数据库。

国外主要文献信息型光盘数据库有:生物文摘,美国医学索引,工程索引,美国NTS政府报告与索引,英国科学文摘;国内主要文献信息型数据库有:中文科技期刊数据库,中国化学文献信息数据库,CACP中国学术会议论文数据库,中国学术期刊。

(第二节文献信息数据库的检索方法

一、检索方法

不同的文献信息数据库检索系统,其检索方法不尽相同,归纳起来,常用的检索方法有下列五种:

1·逐次顺序的查找法

若想查找作者20世纪50年代发表的文献信息,计算机首先按着者倒排文档查出作者50年代发表的文献信息号,然后再利用给出的文献信息号在正排文档中查出该文献信息记录。这种检索方法最适合追溯性检索,比如查某学科分支30年来共发表过多少文献信息之类的检索。

2·布尔逻辑检索

在计算机信息检索中,用户的信息需求是通过检索提问式表达的,布尔逻辑算符在检索提问式起着逻辑组配的作用,组配算符是布尔代数中的逻辑运算符AND,OR,NOT,故称布尔算符。

(1)逻辑“与”

用文字表示为AND,用符号通常表示为“﹒”。

逻辑“与”是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高查准率。若A和B分别表示两个检索单元,则A and B表示要检索同时含有检索单元A和B的文献信息记录。推而广之,凡是使用AND的检索语句必须同时出现在一篇文献信息记录中,该篇文献信息才算命中。

(2)逻辑“或”

用文字表示为OR,用符号通常表示为“+”。

这是用于并列概念的一种组配,若要A or B则表示在一篇文献信息记录中只在含有A和B中的任何一个即算命中。这种组配可扩大检索范围,提高查全率。

(3)逻辑“非”

用文字表示为“NOT”,用符号通常表示为“一”。

这种组配用于从原来的检索范围中排除不需要的概念,可影响检索结果的概念。使用逻辑“非”时要慎重,否则会把有用的文献信息排除掉的。

最后使用布尔逻辑检索时需注意2个问题:一是逻辑运算符的优先级为:NOT,AND,OR,可用:“( )”来改变执行顺序;二是在逻辑组配时,逻辑运算符的两侧必须加空格。

3·加权检索

所谓加权检索,就是在检索时,给每一提问检索词,赋予一个能够表示其重要程度的数值,然后对含有这些检索词的文献信息进行加权计算,其和在规定的数值以上者,作为输出答案,数值大小,可以表示被检索文献信息的切题程度,若干命中文献信息按权值大小排列,这种提供文献信息的方式,本身就具有推荐意义。

4·截词检索

截词检索,就是利用计算机固有的指定位置对比判断功能,使不完整词能与标引词进行比较、匹配的一种检索。由于西方语言构成词灵活,只要求词干加上不同性质的前缀和后缀,就可以派生出许多含义相近的词汇。所以在检索时只要稍有疏忽就容易出现误检。而要一个不漏地把词干相同的派生词都放进检索式,那不仅式子太长,而且占用机时。采用截词检索,能防止漏检,又能节省机时,是提高检索的有力措施。截词方式有多种,按截词的位置来分,截词有后截断,前截断,前后同时截断及中间截断等四种;按截词的字符量来分,可分为有限截断和无限截断两种。美国DIALOG系统用“?”表示截断,并有以下几种截词方式:

第一,词尾有限截断

首先,检索词词干后可能变化1个字符时,则在词干后使用一个“?”,空格后再加一个“?”,前一个表示可变化的字符,后一个为停止符。常用此方法表示检索词单复数的变化。如,用bearing可以同时查找bearing和bearings的文献信息。

其次,当检索词词干后可能变化2个以上字符时,则连续使用若干个“?”代替变化的字符。例如,filtrator,filtration等词的文献信息。

第二,词尾无限截词

在检索词的词干后加一个“?”称为无限截断。这种方法可以同时检找含有词干的所有检索词中的文献信息,例如,identif同时代表identify,identifier,identification等等。

5·通用字符检索

在英语中,有的字有不同写法。例如“颜色”有两种形式color和colour。用前面的截词检索无法解决,就出现了通用字符检索的方法。它是将拼写方法有变化的字符字母处代之以通用符号。如color。计算机在进行匹配时,凡两端的字母有所出入的都算命中。

二、检索的一般步骤

1·课题分析

对检索人员而言,首先要了解用户的检索目的,其次应了解课题的内容,在吃透课题内容的基础上,要把重要概念提炼出来,把次要概念排除掉,对没有什么检索意义的泛指概念,一般不用。在分析课题时,应对查全率和查准率有相应的要求,以便确定合适的检索范围。一般情况,用户对课题的要求可分成四类:查全型,查准型,动态型,查新型。

2·检索词的选择

检索词,即关键词。任何一个检索课题,总可以从不同角度或不同层次的若干概念出发,这些概念分别具有独立的内涵,并存在一定的逻辑关系。检索词的选择,一般有下面几种方法:

(1)优先选用主题词,即选用来源于各数据库表中的词。

(2)选用系统规定的代码,许多数据库的文档中存有各种代码用来表示各种主题范畴,有很高的匹配性。

(3)选用常用的专业术语。

(4)同义词,近义词,相关词,缩写词,词形变化应选全,有些词还应考虑英美不同拼写形式。

3·数据库的选择

由于不同数据库存贮了不同范围和类型的数据集合以及不同形式的文献信息特征标识,所以合理全面地选择数据库是检索结果好坏的关键。在实际检索中就更加需要检索人员平时对数据库的熟悉程度。

在一般情况下,常用专业课题选择数据库的最低标准是:

第一,专利文献信息:世界专利索引数据库,日本专利数据库

第二,化学:化学文摘,化学化工业札记

第三,物理:物理文摘,科学文摘

第四,电子/电器:科学文摘,化学文摘,工程索引

第五,机械:工程索引,机构文摘

第六,冶金:工程索引,金属文摘,化学文摘

第七,轻工:工程索引,化学文摘

第八,纺织:化学文摘,世界纺织文摘,纺织技术文摘

第九,建筑:工程索引,化学文摘

第十,地质:地质学文摘,化学文摘

第十一,数学:数学文摘,化学文摘

4·检索策略的制定

检索策略,即我们所说的检索提问式,也就是检索词之间的逻辑关系式。检索策略的制定是否合理,将直接影响到检索结果的成败。一般来说,使用逻辑“与”算符越多,专指性则越强,查准率就越高;使用逻辑“或”算符过多,检索范围就越大,查全率就越高。另外,使用逻辑“非”去掉不相关的概念,也可以提高查准率。

(第三节中国学术期刊全文数据库检索系统

一、简介

《中国学术期刊》创建于1996年12月,由中国学术期刊电子出版社,光盘国家工程研究中心和清华同方股份有限公司联合主办,是我国第一部大规模、集成化的学术期刊全文检索系统,也是与印刷版期刊相辅相成的导读、评价和检索咨询系统。主要面向全国大专院校,科研学术单位及各级图书情报部门,对于教学、科研、立项、查新有着重要作用。

《中国学术期刊》收入了国内中、英文核心期刊和特色期刊近5300多种,累积全文400多万篇,题录1000多万条,分为理工A(数理科学),理工B(化学化工能源与材料),理工C(工业技术),农业,医药卫生,经济法律与政治,文史哲、教育与社科综合,电子技术与信息科学等九个专辑,共126个数据库,网上数据库每日更新。

《中国学术期刊》重点收录核心期刊和具有相当学术水平的特色专业期刊,主要包括入编《中国核心期刊要览》和《中国科技期刊统计源》的期刊。已入选SCI,KI,MA,CA等国际权威检索系统的期刊,近年来获国家和省部级优秀期刊奖,专门反应新兴学科领域研究成果和某一领域中为数较少的期刊,因此,覆盖的学科领域广泛,核心期刊所占比重较大,具有较强的权威性,对教学、科研和查新立项有很大的帮助。

二、使用介绍

1·用户名和口令:用户登录时,系统默认的用户名和口令均为“guest”,直接点击确认即可进入。浏览器的安装:首次使用本系统并需要浏览全文时,请下载并安装专用全文浏览器,“CAJVIEWER”,否则,将无法浏览全文。

2·《中国学术期刊》专题数据库主要包括两类数据库:(1)题录数据库,提供篇名,刊名,作者,机构,关键词等基本检索信息和文章印刷版及电子版出处。(2)全文数据库,除了提供题录数据库的内容之外,还提供文章的摘要信息,并可进行全文浏览。

3·使用页面介绍:页面主要包括导航目录区,题录报告区和文摘记录区。导航目录区又包括题录数据库和主页链接,系统退出,检索级别选择,帮助,检索字段,检索词,检索时间选择,显示结果排序和导航目录等功能。其中,检索级别选择分为初级和高级检索两种。初级检索为系统默认的检索方式,不能进行组配检索,而高级检索则可能实现多项检索条件的组配检索。检索结果排序包括无序,相关度和更新日期,可根据自己的检索要求做出选择。

4·使用方法:该系统主要提供四种检索方法。

(1)导航目录检索

a·题录数据库导航目录检索:导航目录按期刊名称进行排列,在导航目录区点击期刊表中的某一条记录即可打开它的下级目录,点击最后一级目录,可以打开该期刊目录的所有文章。

b·全文数据库的导航目录检索:提供分类目录,点击分类列表中的某一目录,可能打开它的下级目录,点击最后一级目录,可检索到该目录下的所有文章。

(2)初级检索

首先选择专题数据库,然后再选择需要的检索专辑,可以跨专辑检索。

a·在专项检索字段依据需要选择全文,篇名,作者,机构,关键词,中文摘要,中文刊名,引文,年,期等检索字段。

b·在检索条件输入框中输入检索词,并选定检索词的时间范围和学科范围进行检索。

(3)高级检索

a·依据需要对全文,篇名,作者,机构,关键词,中文摘要,中文刊名,引文等字段中的多项字段进行逻辑“AND”和“OR”的组合。

b·确定逻辑关系“AND”和“OR”输入检索关键词,并确定时间范围和学科范围进行检索。

(4)二次检索