第四章第三节多媒体数据库概述
我们已经迈入信息社会,随着信息数量和信息媒体种类的不断增加,对信息的管理和检
索也变得越来越困难。有人将信息比喻为洪水,而这股洪水会继续泛滥,我们所要做的就是
将成灾的信息洪水转变为灌溉我们思想田野的水源,使得广大的用户能够使用更加方便的工
具获取更多的信息,探索日益增长的信息空间。在这种情况下,多媒体数据库和基于多媒体
内容检索的技术无疑将扮演一个十分重要的角色。
从计算机技术的角度来看,数据管理的方法已经经历了多个不同阶段。最早的时候,数据是
用文件的形式直接存储的,并且持续了很长一段时间,这与计算机的应用水平有关。早期的
计算机主要用于数学计算,虽然计算的工作量大、过程复杂,但其结果往往比较单一。在这
种情况下,文件系统基本上是够用的。随着计算机技术的发展,计算机越来越多地用于信息
处理,如财务管理、办公自动化、工业流程控制,等等。这些系统所使用的数据量大,
内容复杂,而且面临数据共享、数据保密等各种方面的要求,于是就产生了数据库系统。数
据库系统的一个重要概念是数据的独立性,用户对数据的任何操作(如查询、修改)不再是
通过应用程序直接进行,而必须通过向数据库管理系统发请求实现。数据库管理系统统一实
施对数据的管理,包括存储、查询、修改、处理和故障恢复等,同时也保证能在不同用户之
间进行数据共享。如果是分布式数据库,这些内容将扩大到整个网络范围之上。
近年来,随着多媒体数据库的引入,对数据的管理方法又开始酝酿新的变革。随着技术的发
展,产生了许多可以对多媒体数据进行管理和使用的技术,例如面向对象数据库、基于多媒
体内容检索技术、超媒体技术等。一般认为,多媒体数据库不应该是对现有的数据库系统进
行界面上的包装,使之看起来像一个多媒体数据库,而应该是从多媒体数据与信息的本身特
征出发,才能找到相应的解决方法。
多媒体数据库的新问题
在传统的数据库中引入多媒体数据和操作,是一个极大的挑战。这不只是把多媒体数据
加入到数据库中就可以完成的问题。传统的字符数值型的数据虽然可以对很多的信息进行管
理,但由于这一类数据的抽象特性,应用范围毕竟十分有限。为了构造出符合应用需要的多
媒体数据库,我们必须解决从体系结构到用户接口等一系列的问题。多媒体对数据库设计的
影响主要表现在以下几个方面:
1数据库的组织和存储
媒体数据的数据量大,而且媒体之间的差异也极大,从而影响数据库的组织和存储方法。如
动态视频压缩后每秒仍达上百K的数据量,而字符数值等数据可能仅有几个字节。只有组织
好多媒体数据库中的数据,选择设计好合适的物理结构和逻辑结构,才能保证磁盘的充分利
用和应用的快速存取。数据量的巨大还反映在支持信息系统的范围的扩大,显然我们不能指
望在一个站点上就存储上万兆的数据,而必须通过网络加以分布,这对数据库在这种环境下
进行存取也是一种挑战。
2媒体种类的增多加大了数据处理的困难
每一种多媒体数据类型都要有自己的一组最基本的操作和功能、适当的数据结构以及存取方
式、高性能的实现。但除此之外也要有一些标准的操作,包括各种多媒体数据通用的操作及
多种新类型数据的集成。虽然主要的多媒体类型只有那么几种,但事实上,在具体实现时往
往根据系统定义、标准转换等演变成几种媒体格式。不同媒体类型对应不同数据处理方法,
这就要求多媒体数据库管理系统能够不断扩充新的媒体类型及其相应的操作方法。新增加的
媒体类型对用户应该是透明的。
3数据库的多解查询问题
传统的数据库查询只处理精确的概念和查询。但在多媒体数据库中,非精确匹配和相似性查
询将占相当大的比重。因为即使是同一个对象若用不同的媒体进行表示,对计算机来说也肯
定是不同的;若用同一种媒体表示,如果有误差,在计算机看来也是不同的。与之相类似的
还有诸如颜色和形状等本身就不容易精确描述的概念,如果在对图像、视频进行查询时用到
它们,很显然是一种模糊的非精确的匹配方式。这对于其他媒体来说也是一样。媒体的复合
、分散及其形象化的特点,注定要使数据库不再是只通过字符进行查询,而应该是通过媒体
的语义进行查询。然而,我们却很难了解并且正确处理许多媒体的语义信息。这些基于内容
的语义在有些媒体中是易于确定的(如字符、数值等),但对另一些媒体却不容易确定,甚
至会因为应用的不同和观察者的不同而产生不同。
4用户接口的支持
多媒体数据库的用户接口肯定不能用一个表格来描述,对于媒体的公共性质和每一种媒体的
特殊性质,都要在用户的接口上、在查询的过程中加以体现。例如,对媒体内容的描述,对
空间的描述,以及对时间的描述。多媒体要求开发浏览、查找和表现多媒体数据库内容的新
方法,使得用户很方便地描述他的查询需求,并得到相应的数据。在很多情况下,面对多媒
体的数据,用户有时甚至不知道自己要查找什么,不知道如何描述自己的查询。所以,多媒
体数据库对用户的接口要求不仅仅是接收用户的描述,而是要协助用户描述出他的想法,找
到他所要的内容,并在接口上表现出来。多媒体数据库的查询结果将不仅仅是传统的表格,
而将是丰富的多媒体信息的表现,甚至是由计算机组合出来的结果。
5多媒体信息的分布对多媒体数据库体系所带来的巨大影响
这里所说的分布,主要是指以全球网络为基础的分布。Internet网的迅速发展,网上的资源
日益丰富,传统的那种固定模式的数据库形式已经显得力不从心。多媒体数据库系统将来肯
定要考虑如何从网络信息空间中寻找信息,查询所要的数据。
6处理长事务增多
传统的事务一般是短小精悍的,在多媒体数据库管理系统中也应该尽可能采取短事务。但有
些场合,短事务不能满足需要,如从动态视频库中提取并播放一部数字化影片,往往需要长
达几个小时的时间。作为良好的数据库管理系统,应该保证播放过程中不会发生中断,因此
不得不增加处理长事务的能力。
7多媒体数据库对服务质量的要求
许多应用对多媒体数据库的传输、表现和存储的质量要求是不一样的。系统能够提供的资源
也要根据系统运行的情况进行控制。我们对每一类多媒体数据都必须考虑这些问题,如何按
所要求的形式及时地、逼真地表现数据;当系统不能满足全部的服务要求时,如何合理地降
低服务质量;能否插入和预测一些数据;能否拒绝新的服务请求或撤销旧的请求,等等。
8多媒体数据管理还要考虑版本控制的问题
在具体应用中,往往涉及对某个处理对象的不同版本的记录和处理。版本包括两种概念。一
是历史版本,同一个处理对象在不同的时间有不同的内容,如CAD设计图纸,有草图和正式
图之分;二是选择版本,同一处理对象有不同的表述或处理,一份合同文献就可以包含英文
和中文两种版本。我们需要解决多版本的标志、存储、更新和查询,尽可能减少各版本所占
存储空间,而且控制版本访问权限。但现有的数据库管理系统一般都没有提供这种功能,而
由应用程序编制版本控制程序,这显然是不合理的。