第一章第十二节因特网上搜索引擎的机理
21世纪是知识经济的时代。这是人类自农业革命、工业革命以来进行的第三次产业革命,其
基本特征是信息的数字化和网络化、经济的全球化。信息化给各国的社会发展带来了新的机
遇和挑战,并将对未来的社会发展产生深远的影响。信息是无形的财富,它是大至一个国家
,小至一个企业,甚至个人的战略资源,这种观点已成为许多有识之士的共识。
搜索引擎的分类和工作机理
搜索引擎是因特网上的一类网站,这类网站与一般的网站不同的是,其主要工作是自动搜寻
Web服务器的信息,将信息进行分类、建立索引,然后把索引的内容存放到数据库中。搜索
引擎分为两类,一类是分类目录型的检索,它将因特网上的信息资源,如网址、描述主题、
字顺或时间顺序汇总整理,形成图书馆目录一样的分类树型结构目录,用户通过逐级浏览这
些目录来找寻自己需要的网址或相关内容;另一类是基于关键词的检索,这种方式用户可以
用逻辑组合方式输入各种关键词,搜索引擎计算机根据这些关键词寻找用户所需资源的地址
,然后根据一定的顺序(如字母排列、时间、相关级别等)反馈给用户包含此关键字词信息
的所有网址和指向这些网址的链接。需要指出的是,在Web网检索工具出现初期,上述两种
方法的界限明显,如最著名的分类目录检索工具Yahoo!,起初就没有关键词检索功能;同样
关键词检索工具Altavista开始也没有建立分类目录。目前的发展趋势是两种方法合二为一
。
由于因特网每时每刻都在增加新的内容,用人工方式收集网址几乎不可能。为了及时反映信
息源的情况,人们开发出一种称为机器人或蜘蛛的程序,负责访问网络上的各个站点,收集
有关信息,生成相关信息,如生成关键词、建立索引,并且自动生成有关信息资源的简单描
述,据此更新源地址数据库。
搜索引擎的评价标准
目前因特网上的搜索引擎有几十种,它们各有其特点。这里归纳出以下几条评价搜索引擎的
标准。
1具有全文搜索功能
目前搜索引擎的一个发展方向是全文搜索引擎,它是采用对站点页面文字内容进行全面检索
。全文检索技术的出现,导致了信息检索领域的一场革命。比起目录检索,全文检索提供了
全新的、强大的检索功能,可以直接根据文献资料的内容进行检索,支持多角度、多侧面地
综合利用信息资源。全文检索技术是发现信息、分析和过滤信息、信息代理、信息安全控制
等应用的主要技术基础。以全文检索为核心技术的搜索引擎已经成为网络时代的主流技术之
一。但全文搜索虽然多而全,其没有分类式搜索引擎那样清晰的层次结构,有时给人一种繁
乱的感觉。
2具有目录式分类结构
世界上最具代表性的目录式分类搜索引擎是Yahoo!网站。分类搜索引擎的是将信息系统地分
门归类,用户可方便地查到某一大类信息,与符合传统的信息查找方式相近,特别适合希望
了解某一方面信息而不严格限于查询关键字的用户。但目录式搜索引擎的搜索范围,较全文
搜索引擎要小许多。它只是将该网站划分到某个分类下,并记录一些摘要信息等概述性的介
绍。
3在分类中实现全文检索
由于纯粹的全文式和目录式的搜索引擎都存在各自的不足,人们自然想到将上述两种搜索引
擎的优点结合起来,扬长避短。实际上目前优秀的搜索引擎都是采用这种方式。
4查询速度快、性能稳定可靠,可维护性好
查询速度当然是搜索引擎的重要指标。另外,系统稳定可靠,完整的容错、备份、崩溃修复
机制也是重要的因素。
中文搜索引擎简介
1百度搜索引擎
百度的功能完备,搜索精度高,除数据库的规模及部分特殊搜索功能外,其他方面可与当前
的搜索引擎业界领军人物Google相媲美,在中文搜索支持方面有些地方甚至超过了Google,
是目前国内技术水平最高的搜索引擎。为包括搜狐、雅虎中国、Tomcom、21CN、广州视窗
等网站提供搜索引擎,以及中央电视台、外经贸部等机构提供后台数据搜索支持。
2搜狐搜索引擎
搜狐是国内最著名的门户网站,也是国内最早提供搜索服务的站点。搜狐设有独立的目录索
引,并采用百度搜索引擎技术,提供网站、网页、类目、新闻、黄页、中文网址、软件等多
项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。
登录搜狐的周期一般为3个工作日,工作人员会E-mail通知你登录的结果。搜狐是网站最重
要的访问来源之一,因此是国内搜索引擎登录的首选。
3新浪搜索引擎
新浪是全球范围内最大的华语门户网站之一。新浪自建独立的目录索引。共设15大类目录,
10 000多个子目,收录网站达二十余万,是规模最大的中文搜索引擎。采用百度搜索引擎技
术,提供网站、中文网页、英文网页、新闻、软件、游戏等查询项目,支持中文域名。
向新浪提交网站后,一般3个工作日内工作人员便会通知你结果。由于新浪是目前最常用的
中文搜索引擎,也是网站访问量的主要来源之一,因此登录新浪也是网站推广的必经之路。
4雅虎搜索引擎
Yahoo!是最早的目录索引之一,也是目前最重要的搜索服务网站,在全部互联网搜索应用中
所占份额高达36%左右。Yahoo!属于目录索引类搜索引擎。Yahoo!现与Google合作,默认采
用Google搜索引擎提供网页搜索。
登录Yahoo!非常困难,而且周期很难确定,最快的只需数天,一般历时1个月左右,最长的
可达2个月!如果你的网站不符合要求,也有可能永远登录不上。
网上查询技巧
在Web上有许多有价值的信息,实际上对搜索引擎来讲,内容是否足够多并非最重要的,重
要的是使用户能够找到有用的信息。
我们常常遇到检索的结果过于庞大,而有用信息只是其中的一小部分。那么,查询过程中是
否有捷径呢?一般地,查询带来垃圾是不可避免的,但你可以在一定程度上减少它。
首先,你要熟悉经常使用的查询工具及其特性。另外要认识到不同的查询方式会产生不
同的结果。不同目的的查询应使用不同的查询策略,这主要取决于你是想得到一个问题的多
方面信息还是简单的答案。有时,你需要得到一个广泛论题的大致信息,对于这类查询,没
有简单的一蹴而就的方法,你需要从头开始查询,积累信息,不断深化查询,缩小搜索范围
。有时候看上去简单的问题并不一定是容易查找的问题。在这类问题上,建议尽可能的多试
一些关键字,这需要耐心。
不同的搜索引擎指令可能是不同的,只有熟悉了它的机理才可以起到事半功倍的效果。
统计表明,很多用户只输入一个词来进行查询,这往往带来很多不需要的匹配。建议同时使
用多个词来缩小搜索范围,如果你最初的查找并不成功,可以用同义词来进行查找。