书城教材教辅医学信息学
19084100000076

第76章 医学信息资源的利用(2)

(1)叙词法。叙词(Discriptor)又称主题词,它是以规范化为基础,以揭示事物对象及其特征为出发点的信息检索语言,其主要特点是:叙词是经过严格规范化的词或词组,保证语词与概念的一一对应,可用于概念组配检索。叙词一般由叙词表控制,常用的叙词表有《汉语主题词表》、《中医药主题词表》和美国国立医学图书馆(National Library of Medicine,NLM)的《医学主题词表》(Medical Subject Headings,MeSH),其中MeSH 词表是最具代表性的叙词表,也是医学领域内使用最多的一种主题检索语言。MeSH 用于标引和揭示医学文献的主题内容,对于提高医学信息检索的准确率具有十分重要的意义。

(2)关键词法。关键词(keyword)是指出现在文献的题名、摘要或全文中,能够反映文献主题内容的或者能被作为检索入口的专业名词或术语。关键词直接取自原文,不作规范化处理,可以提供更多的检索入口,适合计算机系统自动编制索引的需要。但由于词语没有规范化,对自然语言中大量存在的同义词、近义词、拼法变异词未标明其等同关系,从而导致同一主题文献信息因为用词不同而分散,容易造成漏检和误检。

3)代码检索语言

代码检索语言是用事物的代码作为标识系统的索引语言,如美国《化学文摘》(CA)中的分子式索引、环状化合物的环系索引等。

17.2.3信息检索技术

信息检索技术主要研究信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。一般信息检索技术包括布尔逻辑检索、截词检索、邻近检索和限定字段检索等。

1)布尔逻辑检索技术

布尔逻辑检索是检索系统中应用最广泛的检索技术,即用布尔逻辑运算符来表达检索词与检索词之间逻辑关系的一种检索方法。在检索过程中,检索提问涉及的概念往往不止一个,而同一个概念又会涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。常用的逻辑算符主要有以下几种:AND、OR、NOT,分别表示逻辑与、逻辑或、逻辑非三种逻辑运算关系。

(1)逻辑与:用AND 或*表示,是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。如欲查同时含有概念A和概念B 的文献,可表示为:“A AND B”或“AB”。

(2)逻辑或:用OR 或“+”表示,是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。例如,检索含有概念A 或概念B 的文献,可表示为:“A OR B”

或“A+B”。检索结果是将含有检索项A 的文献集合与含有检索项B 的文献集合相加,形成一个新的集,图中阴影部分为命中文献。

(3)逻辑非:用“NOT”或“-”表示,是用于从某一检索范围中排除不需要的概念。

这种组配可以缩小检索范围,提高查准率。例如,在含有概念A 的文献集合中,排除同时含有概念B 的文献,可表示为:“A NOT B”或“A-B”。

中阴影部分即为包含A 且排除B 的命中文献。

布尔算符的优先执行顺序一般是:逻辑非、逻辑与、逻辑或,但用括号可以规定或改变其执行顺序。三个逻辑算符和括号的配合使用,可将检索词组配成较为复杂的逻辑提问式,以满足复杂概念信息检索的需要。检索式(A*B)-C 的检索结果。

2)截词检索技术

截词检索就是把检索词截断,取其中的一部分片段,加上截词符号进行检索,凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,有后截断、前截断、中截断三种类型。

不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。例如comput*表示computer,computers,computing 等。

截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截词技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。

3)邻近检索技术

邻近检索又称位置检索,主要是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。主要有相邻位置算符(W)、(nW)、(N),(nN)和句子位置算符(S),用法意义如下:

(1)(W)-With :表示该算符两侧的检索词相邻,且两者之间只允许有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。例如:biological(W)control 可检索出含biological control 的文献记录。

(2)(nW)-nWords :表示在此算符两侧的检索词之间最多允许间隔n 个词(实词或虚词),且两者的相对位置不能颠倒。例如:wear(1W)materials 可检索出含有wear materials,wear of materials 等的文献记录。

(3)(N)-Near :表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。例如:information(N)retrieval 可检出含有information retrieval,retrieval information 的文献记录。

(4)(nN)-nNear 表示此算符两侧的检索词之间允许间隔最多n 个词,且两者的顺序可以颠倒。例如:computer(2N)system 可检出含有computer system,computer code system,computer aided design system,system using modern computer 等形式的文献记录。

(5)(S)-Subfield :表示其两侧的检索词必须是在文献记录的同一子字段中,而不限定它们在该子字段中的相对次序和相对位置的距离。例如computer(W)control(S)system可检出文摘中含有像“This paper is concerned with an application of the computer control technique in a intelligent system for testing inner walls of pipes.”这样一句话的文献记录。

4)字段限定检索

字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。检索时,系统只对限定字段进行匹配运算,以提高检索效率和查准率。如PubMed 检索系统中字段限定符主要有[AU]限查作者、[AD]限查作者机构、[MH]限查主题词、[MAJR]限查主要主题词、[PT]限查文献类型、[TA]限查特定刊名等。不同数据库和不同种类文献记录中所包含的字段数目不尽相同,字段名称也有区别。在一些网络数据库中,字段名称通常放置在下拉菜单中,用户可根据需要选择不同的字段进行检索。

17.2.4信息检索效果

检索效果(retrieval effectiveness)是检索系统实施信息检索的有效程度,反映检索系统的能力。检索效果包括技术效果和经济效果。技术效果是由检索系统完成其功能的能力确定的,主要指系统的性能和服务质量;经济效果是由完成这些功能的价值确定的,主要指检索系统服务的成本和时间。克兰弗登(Cranfield)在分析用户基本要求的基础上,提出了六项评价系统性能的指标,即收录范围、查全率、查准率、响应时间、用户负担和输出形式。其中,查全率和查准率是两个最主要也是最常用的指标。

1)查全率(recall ratio)

式中a 为检出的相关文献数,b 为检出的非相关文献数,c 为未检出的相关文献数。

由此可见,查全率和查准率之间存在着互逆关系。如果检索时所用检索语言的泛指性强,检出的文献多,那么查全率将会提高,但误检率也同时增大,因而查准率降低。如果检索语言的专指性强,查准的文献多,则查准率提高,但漏检率也同时增大,因而查全率降低。

所以,欲达到较好的检索效果必须兼顾二者,不能单纯追求其中某一个评价指标。实践证明,在通常的检索过程中,查全率在60%-79%之间,查准率在40%-50%之间,检索效果较佳。

17.3常用中外文信息检索系统

17.3.1中国生物医学文献数据库(CBM)

1)数据库简介

《中国生物医学文献数据库》(简称CBM)是中国医学科学院医学信息研究所开发研制的综合性医学文献数据库,是国内第一个综合性中文生物医学文献光盘数据库,也是目前国内最大的医药卫生专业文献数据库。该数据库收录了1978年以来1600多种中国生物医学期刊,以及汇编、会议论文的文献题录,年增长量约40万条,数据总量达350余万篇,学科覆盖范围涉及基础医学、临床医学、预防医学、药学、中医学及中药学等生物医学的各个领域。中国生物医学文献数据库注重数据的规范化处理和知识管理,全部题录均根据美国国立医学图书馆的《医学主题词表》(MeSH 词表)、中国中医研究院图书情报研究所出版的《中医药主题词表》进行主题标引,并根据《中国图书馆分类法·医学专业分类表》进行分类标引。

中国生物医学文献数据库具有主题、分类、期刊、作者等多种词表辅助查询功能,检索入口多、方式灵活,可满足简单检索和复杂检索的需求,与PUBMED 具有良好兼容性,可获得较高的查全率和查准率。目前,常用的有两个版本,即基于局域网的CBMWin和基于因特网的CBMWeb,网络版网址:http ://cbmwww.imicams.ac.cn/。

2)数据库检索

在“中国生物医学文献数据库”登录主界面输入用户名和密码,登录后系统默认为基本检索界面,在数据库标题下方分别可以切换为主题检索、分类检索、期刊检索、作者检索、索引检索。

(1)基本检索

①选择检索入口。

缺省:表示输入的检索词同时在中文题目、文摘、主题词、特征词、关键词、期刊这些主要入口检索。

全部:表示输入的检索词同时在所有可检索的字符型字段中查找。

指定入口:表示输入的检索词仅在某一指定入口内检索,包括题目、英文题目、作者、地址、关键词、文摘、基金、参考文献、刊名、出版年、期、分类号、主题词、特征词等。

②在输入框键入检索词或检索式,检索词本身可使用通配符,检索词之间可使用逻辑运算符。

通配符:

a.单字通配符(?):替代一个字符。如检索式“血?动力”,可检索出含有“血液动力、血流动力”等字符串的文献。b.任意通配符(*):替代任意一个字符。如检索式“肝炎*疫苗”,可检索出含有“肝炎疫苗、肝炎病毒基因疫苗、肝炎减毒活疫苗、肝炎灭活疫苗”等字符串的文献等。

逻辑运算符:

a.逻辑运算符:AND——检出记录中同时含有检索词A和检索词B。OR——检出记录中含有检索词A 或检索词B。NOT——在含检索词A 的记录中,去掉含检索词B 的记录。

b.优先级。优先级的顺序依次为:()>NOT >AND >OR。例:(心脏瓣膜疾病OR 心力衰竭)AND 手术后并发症。

③选择是否进行精确检索。

a.精确检索:检索词与检索字符串完全相等,如检索作者马智,仅检索出作者为马智的文献,而不会将作者名中含有马智的文献带出。

b.所有入口均可进行包含检索,精确检索仅限于作者、关键词、刊名、出版年、期、分类号、主题词、特征词等字段。

④二次检索:是在已有检索结果基础上再检索,逐步缩小检索范围,与上一个检索词之间的关系为“AND”。

(2)主题检索

①选择“中文主题词”或“英文主题词”检索入口,键入检索词,点击“查找”按钮。

主题检索可用中文主题词、英文主题词及同义词进行查找,可浏览主题词注释信息和树形结构,帮助确定恰当的主题词。还可通过设置是否加权、是否扩展、选择合适的副主题词,使检索结果更符合检索要求。检索课题时应尽可能采用规范化的主题词进行检索,以提高查全率和查准率。

②在主题词轮排表中,浏览选择主题词。

中文主题词轮排表:在输入框键入检索词后,点“查找”,系统显示含有该检索词的中文主题词轮排表。同一行中,左边一列为主题词的款目词(同义词),中间一列为正式主题词,右边一列为该主题词命中的文献数。

选择“英文主题词”检索入口,在输入框键入英文检索词,点“查找”,系统显示含有该检索词的英文主题词轮排表,包括英文主题词和款目词(同义词)及主题词中译名。