书城管理海归汇聚中关村
14881200000133

第133章 可信知识领域的耕耘者

无法想象,没有王宏源的时代瀚堂,人们能否自如地出入于古代经史之中。也许,这些古代文字丰富的地方只是专业人士的兴趣领域,永远无法成为人类的公共知识。

2005年10月,北京时代瀚堂科技有限公司正式推出了含有四字节字符文本的全文检索方法。它实现了大量的生僻字、古字在通用计算机上的数字化管理。此前,一些传统的二字节检索方法最多只能管理两万多个汉字,但时代瀚堂的检索系统可以管理的汉字总数目前超过七万。在百度和Google上搜索不到的四万多古字,在时代瀚堂检索系统中就能搜到,而且还有该字的来历及出处等详细信息。显然,这首先是一部包罗万象的字书。

瀚堂检索系统就像一个古籍文献的电子图书馆,它将《说文解字》、《康熙字典》、《佩文韵府》、《十三经注疏》等多种古汉字典籍全部保存在数据库里。而且不断地招聘专业人士扩大精准古籍的数量和范围。现在,日本、韩国、越南的生僻文字,也能通过这项技术在互联网上自由使用。

瀚堂的作用显然是希望成为知识的收集与整理者,类似于“述而不作”。一个例子说明其作用,上海一家拍卖行的一个准备拍卖的古董有一个字上面是一个“禾”字,下面一个“一”字。拍卖行咨询了许多专家都不知道什么意思。于是向王宏源咨询,王一搜索,知道这个字是“玉”的异体字。一下子,这个古董就可能会多卖几万元,因为这个字现在人是弄不出来的,本身就证明了古董是真货。

王宏源认为,人类的知识,一部分属于可信的,一部分是不可信的。不可信的终将向可信的转移。因此,他的工作是有价值的。说实话,这有些像维基百科。

这个可信的知识数据库的价值是巨大的,工作量也是巨大的。中国古籍共约有15万种,按一种10册算,就有150万册,这些都是王宏源搜集的目标。王宏源告诉记者,现在,时代瀚堂的合作者包括大学、图书馆和出版社,把检索系统给它们用,然后收取服务费。

对于自己的古文字知识的整理工作,王宏源这样看:“如果把所有文字比作一座金字塔,这些生僻字、古汉字只相当于塔尖一点点,但是,它是人类知识库的高端部分,占领了这一领域,就可以一览众山小,不可替代。”

这项技术的重要性是毋庸置疑的。如今,美国一些著名大学都设有“东亚阅览室”,而且只有这个阅览室无法做成电子图书馆,就是因为大量生僻字不能在互联网上进行处理。要查古籍,学生们只能翻阅纸张,而不能用鼠标点击。在中国,这个系统已经成为考古、文史领域的专业支撑,许多导师发现自己的学生很厉害,因为许多字他们都要很辛苦地从各个文字典籍上查阅,而学生们只是点击一下就完成了。王认为正是这个系统,将给文史专业人士带来便利,使他们将精力主要投向一些需要脑力研究的地方,这才是文史工作者应当贡献给全人类的。

“我的工作主要专注于小学,我试图将古代的小学类典籍继承与集成起来。想要整理中国全部的古籍,这是最基础的一步。”

现在,有20多个助手帮着王宏源实现他的宏愿。

据统计,在一般的古代典籍中,生僻汉字占0.3%左右,中国的人名、地名等专用名词中也是生僻汉字比较集中使用的领域。对中国人姓名中存在的生僻汉字的问题,过去的解决方法同文史界专家的方法一样,即采用“造字”的途径,即从常用字上裁下几个部分再拼起来。而这个系统已经十分彻底、现代、专业而轻松地解决了这个问题。