书城社会科学档案信息检索
17943500000010

第10章 检索语言的种类

检索语言一般来说由词语和词表两部分组成。词语也称检索标识,是表达主题概念的名词术语或逻辑分类的分类号及代码,如分类号(F23)、关键词(计算机应用)、叙词(计算机应用);词表是指汇集了各种语词,并按一定规则排列的系统化词表,如《中国图书资料分类表》、《中国档案分类表》、《汉语主题词表》等。目前世界上的信息检索语言有很多种,依其划分方法不同,其类型也不一样。就其描述文献的有关特征而言,可以分为描述文献的外部特征和内部特征两大语言范畴,这两大范畴又可以细分为若干具体的语言,如表3-1.不同检索语言构成不同的标识和索引系统,提供给用户不同的检索点和检索途径。在众多检索语言中,分类语言和主题语言是最常用的两种检索语言。

一、分类语言

分类语言是由许多类目按照一定的原则,以列表的形式组织起来,并通过标记符号来代表各级类目和固定其先后顺序的一种检索语言。其主要特点是按学科、专业集中文献,便于从知识分类的角度揭示各类文献在内容上的区别和联系,从学科分类的角度提供族性检索。分类语言按照分类方式的不同,分为体系分类语言、组配分类语言和混合分类语言,它们统称为分类法系统。在实际应用中,最常用的分类语言是体系分类语言。

体系分类语言是按文献内部特征进行分类的检索语言。它是以学科的分类为基础,概括文献的外部特征及某些内部特征,运用概念划分文献类别的方法。它的结构原理是按知识门类的结构次序,从总到分,从一般到具体,从简单到复杂,进行层层划分,从而产生许多不同级别的类目,层层隶属,形成一个严格按学科门类划分和排列的等级制体系。体系分类语言广泛用于图书、资料及档案的分类和检索,它的具体体现形式就是图书分类法和档案分类法,比较有影响的和在实际工作中运用广泛的就是《中国图书分类法》和《中国档案分类法》。

二、主题语言

主题语言是使用自然语言字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索语言。主题语言表达的概念比较准确,具有较好的灵活性、直观性和专指性,可以满足用户从主题概念的角度检索新兴学科、交叉学科文献信息的要求。

主题语言按规范化程度可以划分为规范性主题语言和非规范性主题语言。常见的规范性主题语言主要有叙词语言、标题词语言、单元词语言三种,非规范性语言有关键词语言和纯自然语言两种。

(1)叙词语言。叙词是指从大量文献中优选出来,并经过多方面严格控制的,用来表达文献主题的词或词组。叙词语言就是围绕某一个叙词,通过设立一套严格完整的参照体系,把各个分散的独立的叙词在语义逻辑上构成一个有机整体。它一般由叙词的等同关系、属分关系、相关关系三类组成。如表3-2.

通过参照系统可以帮助我们合理地选用叙词,并可以依照参照系统中的各种关系扩大或缩小检索范围。《汉语主题词表》和《中国档案主题词表》就是叙词检索语言的典型代表。

(2)标题词语言。标题词是主题语言系统中最早的一种类型,它通过主标题词和副标题词固定组配来构成检索标识。由于标题词语言只能选用“定型”标题词进行标引和检索,反映文献主题概念受到一定限制,目前已较少使用。

(3)单元词语言。单元词语言多用于机械检索,适用于简单的标识和检索手段来标识信息。

(4)关键词语言。关键词是指出现在文献标题、文摘、正文中,对表达文献主题内容具有实质意义的语词。关键词不受词表控制,适用于计算机自动编制各种类型的关键词索引。

(5)纯自然语言。纯自然语言完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。它采用全文匹配法检索,主要用于计算机全文数据库检索和网络数据检索。

在以上检索语言中,叙词语言是最为先进的一种语言,在规范性信息检索中使用最为广泛。关键词语言和纯自然语言也称为自然语言,是目前一般信息检索中使用最频繁、最广泛的一种检索语言。它具有不编制词表、选词灵活多变、标引和检索速度快、及时反映事物发展变化、准确表达新概念等优点,但其缺点也非常明显,即误检率较高。