书城社会科学现代图书馆人丛书-图书馆自动化与现代化
15796700000026

第26章 计算机和互联网的前沿技术在数字图书馆的应用(2)

一、为什么元数据是数字图书馆资源描述的著录格式自印刷术发明以来,书籍可以说是知识记载和流通的主要形式。直到近代各种专业组织和学会的兴起,才有会议或是期刊论文的大量出现,与书籍分庭抗礼,形成二大文献主流。由于书籍是渊远流传的主要知识流通形式,自然成为图书馆最主要的馆藏文献。为了能有效管理馆藏书籍和提供有效率的服务,制作目录一直是图书馆技术服务的核心工作,也是图书馆读者服务的主要基础。自从实现图书馆自动化管理后,为了要利用计算机来处理书目资料,使用的书目记载格式变为机读编目格式,我们国家用CNMARC格式。

我国近二十年来,由于信息传媒发展迅速,加之各种专业组织和学会的兴起,刺激了学术研究的盛行。为了加快知识的流传速度,最新的研究成果并不以书籍形式呈现,因为厚达数百页的书籍,不但制作耗时,因此时效性较差,且发行成本昂贵。因此一般的最新研究成果是采用会议论文集或是期刊论文方式流传。而最近五六年来,我国相当一部分期刊的内容都已数字化和商品化。期刊题录索引,全文数据库几乎把最新的学术信息通过光盘和网络及时地呈送到读者面前。

由于期刊或是会议论文的汇集和整理,是以数据库的形式用光盘或从网络上发行,并且掌握在少数机构和数字化公司手上,而公司这些机构往往是以谋求利润以维持企业继续生存为主,因此其数据库具有付费和封闭性质。同时为谋求利润的最大化,以避免单纯的价格竞争,他们必须强调产品的差异性。因此其处理模式,本质上是差异化取向。由此观之,不难体会到为何每家数据库公司的数据呈现格式均不一样。使得各种数据库产品的使用方式、字段与接口多,因此图书馆常常花费很多的金钱用在购买数据库上。

其次,全球信息网(Web)透过兼容性强的多媒体使用接口、易写作的超文件标示语言(HTML)格式和使用超链接来串接多个不同文件,在短时间内形成一股风潮席卷全球,不但使互联网走入一般人的日常生活,也无形中改变人们搜寻资料的习惯和期望。其中最主要的就是利用搜寻引擎(Search Engine),透过自动抓取程序在互联网络上抓取网页,然后使用全文检索的技术,以自动拆字(或词)做索引的方式来建立其数据库。这种运作方式固然可满足部分的检索需求,但是无法有效地筛选和过滤冗余资料,这是其最大的弊病。

打个比方:我们写信给某人,信写完了应该寄出去,如在信封上只写:北京路77号,某某收。当收寄局收到这样的信时,不知道应该往那儿发。因为,在全国大中城市中北京路实在太多了,南京有一条、上海有一条……所以这封信是根本发不出去的。在这个例子中,“北京路77号”就相当于用户要检索的目标,而邮政收寄分发枢纽就相当于搜索引擎,当用户发出检索指令后,它就按照用户要求检索出所要的结果,往往会让人大吃一惊,因为它把成千上万的信息都罗列在用户面前。又比如,我们想从网上搜寻2002年人民教育出版社高一语文(试验修订本)中鲁迅《拿来主义》一文的多媒体课件。如果所有的课件均未著录。那么用搜索引擎的“高一语文”或“拿来主义”去搜索。就会出现成千上万条的题名是“高一语文”“拿来主义”和内容中含有“高一语文”和“拿来主义”词语的讯息,叫你无所适从。这样一来,用户只能从这些“垃圾”数据占95%的信息中再大海捞针般地检取和分离出自己所要的信息数据。

由于这些原因,使研究者意识到,为了资料检索和管理的需要,对资料的适当描述仍是必须的。虽然如今计算机的运算速度惊人,但是检索的有效率仍是亟待解决的问题。也就是说,用一种凡使用和输出数字信息的用户和提供者都能掌握的基本方式,对光盘和网络上各种媒体形式的数据加以著录。因此从不同角度描述信息特征的新型著录格式元数据也就应运而生。

二、元数据的成因和特点

元数据最常见的英文定义是“data about data”,可直译为描述数据的数据,主要是描述资料属性的信息,用来支持如指示存储位置、资源寻找、文件记录、评价、过滤等的功能。从图书馆的角度来看,就其本义和功能而言,元数据可说是电子式目录,因为编制目录的目的,即在描述收藏资料的内容或特色,进而达成协助资料检索并提高检索效率的目的。

在众多的元数据种类中,基于XML的都柏林核心集是近年来在国际间相当受瞩目的一种。都柏林核心集(Dublin Core)是1995年3月由国际图书馆计算机中心(OCLC)等所联合赞助的机构在美国俄亥俄州哥伦布市的都柏林镇召开的研讨会推出的研究成果。根据研讨会的报告,都柏林核心集处理的对象,将限于“类文件对象”,意思是可用类似描述传统印刷文字媒体方式,加以描述的电子档案。我国台湾地区的中文元数据MICI-DC也采用DC架构,既在能处理的资料类型包括古文地图,图像/照片资料以及故宫的书画,器物与文献。DC元数据引进中国后,我国一些大型图书馆的专家们又结合中文文献的特点研制出与DC元数据基本相近的中文元数据。一般图书馆的馆藏,绝大部分都属于我们以DC元数据为例,其著录内容由15个基本元素构成,由DC修饰词对这15个基本元素的语义进行限定和修饰。这15个基本的元素是:①题名、②创作者、③主题、④说明、⑤出版者、⑥其他责任者、⑦日期、⑧类型、⑨格式、⑨标识符、来源、语种、关联、覆盖范围、权限。具体每个元素的定义和修饰词在这就不再详述了。那么,元数据是以什么方式来进行著录和管理的呢?

传统的基于手工及印刷的资料著录,一般来说是将对文献资料的描述,按照一定的规则或摘要形式记录在另外的手写或印刷载体中(卡片、书本式传统的基于手工及印刷的资料著录,一般来说是将对文献资料的描述,按照一定的规则或摘要形式记录在另外的手写或印刷载体中(卡片、书本式目录或索引等)。对于元数据来说,它有三个方面与普通著录不同:①它们描述的对象发生了变化,不仅是书目资料,随着网络发展的速度加快,已经扩展到了电子图书、WEB网页、数字多媒体资料等。

②网络环境的影响,现在数据体系往往应用于网络环境中,它们描述的对象不再是本地或某一具体的数据资源。

③标记语言的兴起,计算机应用跨入网络化及标准化时代,作为一种管理和应用各种资源的有效方法,标记语言也就是在这样的背景中得到了大量的应用和发展。其中XML(可扩展标记语言)几乎成为信息处理的一个新的基础。

综上所述,元数据很多是直接利用标记语言或电脑数据库等进行制作的,使用标记语言制作的好处是保证了元数据的结构化,易于被计算机处理和交流,对人来说也有很好的可读性。

使用标记语言的另一个优点是可以将元数据与资源对象整合在一起,方便管理与交换的可用性。

在现今的网络环境下,元数据的存储与管理大致分为以下几种模式:

①独立的元数据文件

②嵌入在资源中

③与通讯协议结合(比如在图书情报界逐步被使用的Z39.50)

④本地数据库

⑤远程数据库

元数据在网页著录方面也有独特的构思,图书馆是以制作目录(或是书目资料)为核心工作的,对于网络信息技术的高速发展,越来越多的网页资料同样也变成图书馆虚拟收藏管理的一部分,但是图书馆的工作人员不可能一直在网上收集那些未经标准格式描述的散落的资料信息,这样一来,元数据就成为了收集这些信息的主要手段。因为,网页处理目前唯一有效的方式为作者著录。作者著录方式是以让网页作者在制作网页时,也顺手对其所创作网页加以简单的著录,而所产生的元资料,其产量和品质都介于计算机和专业资料著录人员中间。

从上面所讲的几点来看,元数据的应用是将来图书馆和非图书馆信息之间交流及资源共享的发展方向。

三、元数据与可扩展标识语言XML的关系

XML(eXtensible Markup Language),中文译名“可扩展标识语言”,W3C的XML工作组是1996的SGML(Standard Generalized Markup Language,标准通用标记语言)工作组的基础上成立的,于1998年2月于正式推出了XML1.0版本。XML是SGML的一个严格筛选的子集,它既保留了SGML的绝大部分实用的功能,又大大简化了SGML过于复杂和使用起来不方便的地方,使XML变得功能强大而又易于使用。XML主要有三个要素:DTD(文档类型声明)或XML Schema(XML大纲)、XSL(可扩展样式语言)和Xlink(可扩展链接语言)。DTD和XML大纲规定了XML文件逻辑结构,定义了XML文件中的元素,Namespace(名域)实现统一的XML文档数据库表示以及数据的相互集成;XSL是用于规定XML文档呈现样式的语言,它使得数据与其表现形式相互独立,而Xlink将进一步扩展目前Web上已有的简单链接。

Metadata,中文译名“元数据”,是描述一个资源属性的数据,目前,元数据是网络资源组织发展的热点,它与XML的发展密不可分。基于XML的元数据格式将走向标准化,为网络环境下资源的高效组织和利用提供必要的手段,元数据和XML的结合将在不断发展的网络信息资源共享和组织中发挥有效的、强大的作用。

①基于XML的都伯林核心(DC),是1995年国际组织拟定的用于标识电子信息资源的一种简要目录模式,它有简练、易于理解、可扩充及能与其它元数据形式进行连接等优点,目前它由15个数据单元组成。

②基于XML的RDF,(即资源描述框架)是由W3C组织开发的另一种元数据格式。RDF几乎能够描述所有用统一资源标识(URI)命名的资源。RDF通过抽象的数据模型为定义和使用元数据建立一个框架,元数据元素可看成其描述的资源的属性。进一步地,RDF定义了标准Schema,规定了声明资源类型、声明相关属性及其语义的机制,以及定义属性与其它资源间关系的方法。另外,RDF还规定了利用XML Namespace方法调用已有定义规范的机制。

③基于XML的元数据还有PICS即“Internet内容挑选平台”,由W3C组织开发,PICS的特点是它的内容分类定级机制,不同的人可以根据其各自的目的和观点标记网页内容,从而进行控制,而不必对信息提供者进行控制。PICS2.0版已移至XML环境下。

Web Collections即“Web收集”,是一个较早的基于XML的元数据规范,基于XML的Web Collections的元数据能深入地描述网络资源,给用户提供方便。

CDF(即频道定义格式)是由Microsoft公司提出的基于XML的元数据规范,MCF(即元内容框架)是由Netscape公司于1997年6月提出的一个基于XML的元数据方案。MCF使用XML—MCF标记,它与CDF形成频道转换技术的两在标准,促进了信息推送技术的发展。

基于XML的元数据管理系统可以用来建立数字图书馆等其它主题资料数据库。它具有利用SCHEMA(或DTD)建立数据库、编辑元数据、建立索引点、查询、转入及转出XML记录等功能。

元数据技术是数字图书馆系统的核心,而XML良好的结构和强大的标记功能使得它可以描述许多不同领域的元数据,此外,一个机构的资源类型可能有多种,也可能会采用多种元数据格式,建立一种基于XML的通用元数据管理系统来管理各种元数据格式是目前数字化的方向,一旦此类系统在不仅仅是数字图书馆的各种行业大范围应用,那么由于XML的“世界语”

的特性,易扩展性和互操作性,跨系统的信息资源检索平台的建立将成为可能,从而更好地为人们共享知识、交流思想服务。

四、元数据与MARC的关系和比较

那么,有些人会问,这几年来,我们正在推广文献的MARC著录,为什么又出现元数据这种新的文献著录格式呢?由于书籍是渊源流传的文献知识的主要流通形式,自然成为图书馆最主要的收藏,为了能有效管理馆藏书籍和提供高效率的服务,制作目录一直是图书馆技术服务的核心工作,也是图书馆读者服务的主要基础。为了要使用计算机来处理书目数据,使用了记载格式为机读编目格式(MARC),从1966年到现在,计算机逐渐取代卡片目录成为主要的处理工具。

但是,由于MARC编目的复杂性,使得书目资料的制作成本很高,其使用和流通成本却极低,无疑是阻碍了它的继续发展的步伐。随着互联网络的日益普及,网络资源的整理和检索也日益重要,MARC在此方面也显得力不从心。就设计结构不合理而言,MARC以前给非图书馆专业人士的第一印象是复杂且深奥难懂,至于对计算机科技有较深了解的人,则会惊讶的看到机读编目格式中有很多资料重复的现象。综上所述,我们可以发现MARC的局限性主要表现为以下几个方面:

①对文献和信息描述手段往往只适合用于图书馆;②MARC需要在专门的软件系统中使用;

③修订程序复杂、缓慢;

④适用于完整的、静止的信息内容的处理,不易处理动态的多媒体信息;⑤编制一条机读记录不仅需要经过严格的专业训练,而且需要花一定的时间。