书城社会科学数字媒体资产管理系统
19695800000038

第38章 内容管理系统的基础结构(5)

7.4.8查询和检索

内容管理系统所提供的标准查询界面应该是基于Web的。Web检索服务提供的这种界面是由一个或多个服务器系统来控制的。这种方式能够分散负载,使系统更容易升级。

Web检索服务可以运行在具有高带宽网络接口平台的应用服务器上,尤其是在需要将大量的关键帧提供给用户时。在安装中,嵌入的视频或音频播放器被用于播放运行在SAN上的视频或音频文件。

内容管理系统使用内部数据库来长久存储处理信息,以及描述性与素材相关的元数据等。为了确保最大化的容错性能和执行,这些关键数据库所在的服务器应被设计成服务器集群。用于数据管理和素材管理的2种数据库服务器集群。

查询是通过数据管理的各种组件来处理的。在现实的应用程序中,这些数据管理组件会在不同的服务器上运行以分散负载。典型的情况是,这些服务器与具体存储所有元数据的子系统数据库接口,或与它们固有的或具体的搜索引擎接口。数据管理通过多种数据库进行联合搜索,综合的结果单由数据代理提供。由于这些服务对访问素材没有要求,在大多数情况下,它们的主机就是应用服务器。

应用分布式的概念到数据管理的单个功能组件上也是可以的。一个例子就是应用多种全文本搜索引擎(每个引擎都运行在一个专门的服务器上)来分散查询负载。这些全文本搜索引擎要么直接从数据库表中索引属性,要么索引运行在共享存储媒体上的文档。对后一种情况,这些全文本搜索引擎就应该运行在SAN服务器上。

除了传统的搜索性能,内容管理系统还可以提供先进的检索功能(如图像相似性检索)。这些搜索引擎通常有大量的执行要求,因此应该通过分布式服务器系统给予支持。下面简单的例子强调了这个问题:

考虑每小时1 000个关键帧的视频,10万小时的视频会产生1亿个关键帧。为使用户能够接受图像的相似性查询,将一个图像和所有存储的关键帧比较,应该在10秒以内响应。

这种要求对搜索引擎的执行是个很大的挑战。由于这类高级检索系统的有效性还要在真实世界中建立(尤其是对于大的广播组织),评估利益和费用是很重要的。

素材管理过程要求有与素材相关的元数据(如格式、时码、期限、文件大小、位置等)。素材管理过程访问素材管理数据库,但是同数据管理一样,只处理数据不处理素材。因此,素材管理过程能运行在一个或多个类型的应用服务器上。

7.4.9制作和播出的界面

基于检索和粗编过程做出的决定,制作素材从高码率的归档中传输到一个制作系统中。制作系统可以是单独的编辑系统或是支持多个编辑共享同样内容的基于服务器的编辑方案。

素材从归档到编辑设备的传输可由3种不同的方式来完成:

·基带视频经由标准演播室SDI连接的实时流。根据内容管理系统和广播控制自动操作间的共享方式,可选择下面的方式执行传输:

内容管理系统传送文件到接口服务器(播放服务器),然后根据人工请求,在编辑设备的控制下完成到编辑设备的传送。

内容管理系统传送文件到接口服务器(播放服务器),然后由广播控制的自动操作完成到编辑设备的传送。

广播控制的自动操作传送文件到接口服务器,并控制编辑设备的播放。

·本地压缩的视频以实时或快于实时的流经过SDTI连接。这种传输可以用SDI传输同样的方式管理,主要的区别是信号质量。典型的SDI传输包含解码到基带和重新编码到目标系统的压缩域,这会导致信号质量的衰减。SDTI传输允许在压缩域使用SDI连接交换数据,其信号质量不会损坏。

·从IT网络(首选光纤通道或1 000baseT)拷贝。这种传输直接由内容管理系统管理,可能会需要通过文件格式转换器对文件封装格式进行转变以适应私有的文件格式。当制作系统与不兼容的编码格式协调时,往往需要这种转换。

从基础结构的观点看,内容管理系统处理经由传输服务器的,在归档和接口服务器或制作系统之间的文件物理传输。由于这些服务器要与SAN连接,它们必须成为SAN类服务器。过程的控制涉及到要与接口服务器、广播自动控制系统(设备管理的组件)和传输过程管理(输出服务)的连接。作为控制的组件,这些系统组件能够运行在应用服务器类的主机上。如果需要格式转换,转换服务器也要参与。理想的情况是,转换服务器被安装在SAN服务器上。

在制作系统,资料被编辑和组合成一个新的完整的节目。当节目在编辑工作站得到最后确认后,内容可以被传输到播放系统。这种传输可以用文档到生产环境同样的传输方式来处理,或者可以使用由制作系统自己提供的传输功能。播放本身是完全由广播控制系统来管理的。

制作完成的资料的浏览副本可以通过将资料移动到接口服务器上、使用实时浏览编码器产生,或者通过使用转换服务器的软件转码来产生。

已完成的稿件可以使用相同的传送功能从制作系统传送到归档系统进行永久保存。

7.4.10编目和归档

用于永久存储和归档的资料应由专业的归档员进行深度的编目和索引。编目人员从他们的台式计算机上访问和操作浏览副本、关键帧和元数据。在编目中的主要任务是提炼元数据的质量,其结果必须是整个组织按基于IT的访问协议来访问。关于硬件基础结构,所有包含支持这些任务的系统都已做过了描述。

7.4.11管理

系统管理员用他们的桌面计算机监控和管理内容管理系统。为了维护和监督系统的顺利执行,管理员必须能从自己的桌面访问所有系统。

7.5操作方面的考虑

在引入内容管理系统以后,必须能够对基础结构和软件进行操作、管理和维护。对基于IT的组件,在这种环境中所执行的是标准的维护程序。大多数计算机设备在3~5年后才会折旧,在到达使用期限后就要被替换或更新。软件的维护是一个不断持续的过程,软件的更新通常是维护协议的一部分。因此,一般的IT规则和协议也可用于内容管理系统。

在一定的范围内,操作、维护和替换是非常重要的,即对大规模存储系统和它的数据载体的维护很重要。有规律的检查数据的完整性和在数据有丢失危险时采取行动是很关键的,设计具体的迁移战略必须确保没有数据的丢失。理想的情况下,这类维护应该是后端的自动处理过程而不需要人的介入,甚至不被用户所察觉。

另一个要考虑的方面就是数据管理和迁移过程的成本。考虑到在内容丰富的组织中所要管理的数据量是相当可观的,因此,数据维护和迁移策略不仅仅取决于技术参数,也和成本因素有关。接下来将会介绍有关载体维护和迁移的技术问题及成本问题。

7.5.1迁移

对于数字的、基于文件的归档的一个关键问题就是创建能够维护长期数据完整性、独立于存储技术和媒介变化的外部数据集。这种保证显然不能轻易实现。IT硬件技术仍在快速的发展着,例如存储密度和计算能力,还有相关媒体软件技术的性能如压缩等也在快速发展,而且新的编码格式也在不断地出现。在传统的媒体生产中,这些格式要受到物理载体(如磁带)的局限,新的数字格式是独立于物理媒体的。

然而,编码的发展和进步要求迁移成为内容管理系统的内在设计范例,以保持数字归档技术能够与时俱进。这种环境中的迁移有时甚至要求改变初始的数据集。由于技术的进步和发展是不断的,迁移也不会是一次偶然的事件,而要成为数字归档系统完整操作的一部分。这和8.2.2所要讨论的从录像带生产的迁移是可比照的。因此,连续自动的迁移必须成为内容管理系统的一个内在功能。

7.5.1.1使用自动磁带库

数字数据文档必须能够保证数据的永久完整性。这意味着存储媒体的物理衰退不会影响所存储的数据的完整性。磁带格式(不管是录像带或数据磁带)是很容易产生物理衰退。因此,数据磁带文档必须能自动检测存储媒体存在的危险,并可执行自动恢复程序,自动磁带库是达到这样目的的很好的方式。自动磁带库是这样的系统,它能够控制磁带和磁带驱动在槽和驱动间的自动迁移,控制驱动中磁带的装载和卸载。

这样的磁带库在被用于大规模媒体系统高码率媒体的永久存储时,可由软件控制和自动的执行来维护数据的完整性而无需人的介入。因此自动磁带库不仅适合于作为近线大规模存储媒体,也可以通过自动迁移过程方便内容的保存。

7.5.1.2监控载体的完整性

监控载体的完整性是检查数据序列是否被正确地传送到存储媒体或载体的关键要素。而且,检查载体的“健康状况”是否已经衰减到预先确定的范围以外也是很重要的。如果这种情况发生,预防性的措施就是通过自动数据传输来重建新的载体。

当从数据磁带中读数据时,磁带中数据完整性的一个判断指标是位错误率(或由磁带驱动供应商提供的一个等价指标)。

了解数据序列中发生错误的地方和什么会使数据块上产生错误是很必要的。一个典型的数据块包括:

·地址。

·同步字或同步块。

·数据包。

·校验字或校验以及用于传送块的差错保护。

既然同步块中的错误会导致整个块的丢失,就要引入附加的错误保护机制,使用多个数据块信息来产生所谓的产品代码。使用产品代码,同步块中的错误就能被调和。一些供应商也使用正移技术将错误保护分布在多个数据块以及他们各自的产品代码中。

为了真正了解某个数据磁带上到底发生了什么,内容管理系统必须完全了解单个数据磁带驱动解决方案所支持的错误保护的执行方式。这很具有挑战性,尤其在考虑到快速的产品发布周期和供应商想要保护他们的竞争优势时。

然而,内容管理系统确实需要关于某个磁带或磁带驱动是否已经衰退和是否可靠的较早的指示。这意味着必须能够有效地获得大量的信息来建立错误的分类、错误的频率和错误随时间增加的情况。例如,当突发错误发生在某个磁带上时,可能是该磁带本身的问题所致;而单一的错误出现在多个磁带上时,就可能意味着一个具体驱动的写探头的衰退。

为了保护商家的竞争优势和最小化内容管理系统所需要具备的关于错误保护算法具体执行的知识,可以应用交通灯系统。不同灯的解释可以是这样的,第一个灯指示在给定时间范围内的最大错误率,第二个灯指示在给定时间范围内的所有错误率的整体情况。

时间范围是系统具体的常量值。例如在螺旋状的扫描记录情况下,合理的时间范围应该是写一个磁道所需的时间。应该将交通灯定义成:

·绿灯——设计参数内正常。

·黄灯——接近设计参数,仍然可恢复。

·红灯——不可恢复的错误发生了。

为了以这种不同颜色的交通灯的方式传递结果,需要由商家将内部的错误统计与具体商家的正常值相联系。而且,应由一个独立的组织测试和证明所传送的结果是否合格,以保证其兼容性。

然后内容管理系统要负责记录信息、存储信息、执行必要的统计评估和采取合适的行动以保护整个数据序列的完整性。

错误率或错误指标的统计指示了目前载体和磁带驱动的健康状态以及其状态随时间发展的情况。根据经验模式或从商家提供的应用信息中提取一个载体可能的生命周期,这样的附加信息是很有帮助的,如某个载体的最大承载数量和写的次数。而且,商家也可以根据经验提供某些参数,例如载体在可控环境中理论上工作的最大生命周期。在这种环境中,载体在可控环境之外的工作时间也要加以考虑。载体的剩余工作时间可从最大理论生命周期中得出,但是载体在不可控环境中工作的生命周期往往会更短。而且,根据公司或组织政策得到的任何生命周期的日期应该是具体的和可执行的。

如果把数据磁带归档作为机器人大规模存储解决方案中的首选,那么负责管理的系统必须给每个磁带保留下列可追踪的信息:

·最大容错率。

·最大承载数。

·最大读出量。

·最大写入量。

·服务程序间最大可容忍的间隔时间。

·磁带的最大有效生命周期。

·用户选择的结束日期和时间。

·为了获得磁带的寿命,第一次记录的日期和时间。

·为了跟踪由于某个记录设备的技术问题而导致的系统失败,记录设备的ID。

·最后读出访问的交通灯统计。

·当前载入数。

·当前读出数。

·当前写入数。

·下次服务计划的日期。

·状态。

基于这些信息,可以获得载体的完整情况,如果有必要的话,存储在载体上的数据可以迁移到新的载体。为了保证数据磁带载体的完整性,有许多任务需要自动完成。例如,这些任务包括1秒内磁带驱动写入的磁带,为减少由于探头的未对准或写入过程中的其他技术错误可能造成的写入错误,不同的磁带驱动和重读数据。而且,对一定时间未访问过的磁带需要定期地进行倒带和重装,以避免磁带的粘连。为了检查比特错误率(或磁带健康状态的等价指标),在一定的周期间隔内读磁带也是必须的。如果查出问题(即超过任何具体的参数)要立即采取行动,这包括拷贝比特错误率超过给定安全比特错误率的磁带到新的磁带上,及拷贝超过生命周期的磁带到新磁带上。当磁带在可控环境中使用的时间超过给定的安全时间时,它就达到生命周期了。

在内容管理系统基础结构设计时必须要考虑这些过程。尽管对存储媒体和迁移过程的检查是在后台进行的,但要确保检查能够定期进行。