书城社会科学教师的28个怎么办-教师如何培育信息素养
16214800000017

第17章 利用现代化技术获取信息(3)

(6)NCFC已外连到国内其他一些网络和计算机。三种最广泛使用的连入方法均有,包括DDN专线、中国公用数据网CHlNA—PAC,公用电话网PSTN的专线或拨号。目前继续有不少大学、研究机构等正在进行与NCFC的联网工作。

4.网络运行、管理与公用服务

从1994年1月起,NCFC主干网已全天24小时运行,特别是与Internet连通后更是如此。为保证用户正常使用,网络中心对全网进行了有效的监控,及时排除故障。网络中心已初步配置了NOC必需的管理、监控与统计设施。

对NCFC这样的网络,特别是将代表中国的最高域名服务器即CN域名服务器从国外移至NCFC后,NCFC首先要建立中国的NIC,以解决面向国内用户单位的网络注册服务、目录和数据库服务、公用信息服务,同时也面向国际。为此,除必须且已建立的域名服务器、邮件服务器外,又先后建立了匿名文件服务器(anonymousftpserver),Gopher服务器,News服务器,WWW服务器,并正在建立Whois等服务器。目前这些服务器逐步充实了由中国提供的信息,Internet上的很多外国用户已经可以访问我国的NCFC信息网。

5.网络应用

NCFC投入运行以来,已有大量的用户使用这一网络,特别是通过NCFC使用Internet。1994年4月NCFC连入Internet后,Internet的NOC已对中国使用Internet的状况进行了统计。例如,1994年10月1日的统计表明,中国连入Internet的网络已有22个,1994年9月,中国在Internet的主干网NSFnet上的交通量达7000MB,平均每天200MB以上。从NCFC网络中心监控NCFC用户使用Internet的统计看也是如此。这对NCFC的各种用户在不同专业领域享用国际信息资源,处理各自的业务起着重要作用。NCFC的用户已能够在一个与国际网络接转的平台上工作,使有关的科研、教育、国际交流工作迈上了一个新台阶。

NCFC内部的用户之间也在进行着不少信息共享和交流工作。有关部门正在NCFC网络中有计划地布置和实施着网络应用的开发工作,如中科院、北京大学、清华大学三院校的图书情报信息系统、计算机辅助教学系统、科学与工程计算机软件共享系统等。NCFC网络中心除大力建设NIC提供各种公用服务外,还进行着科学数据库的建设与开发工作。所有这些都为NCFC的国内外用户享用NCFC信息资源带来希望,使中国的信息资源走向国际,并占有一席之地。

利用现代化信息检索技术获取信息首先要了解其检索原理与方法,掌握好人一机对话方式,即计算机信息检索系统所指的情报提问同文献标识或文本之间的匹配原理和方式,这也是现代化信息技术的检索路径,将在介绍。

现代化信息检索技术原理与方法

一、加权检索

所谓加权检索,就是在检索时,给每一提问检索词以一个表示其重要度的数值(即所谓“权”),然后对含有这些检索词的文献进行加权计算,其和在规定数值以上者,作为答案输出。权值的大小,可以表示被检出文献的切题程度。若干命中文献按权值大小排列,这种提供情报信息的方式,本身就具有推荐的意义。

检索词的权是按照提问者需要给的。例如要检索“硫对金属的冲击强度的影响”课题的文献,可分别对各检索词赋予一定的权数:

硫30钢40冲击强度30

这样,在检索时,可能有下列五篇文献,它们对该提问的权值可能分别是:

1.硫对钢的冲击强度的影响——100

2.论钢的冲击强度——70

3.元素硫——30

4.塑料的冲击强度——30

5.污水处理——0

如果临界值规定为“70”,则被检出的是前两篇文献:如果临界值规定为“100”,则被检出的文献只有第一篇。凡临界值以下的,皆为非命中文献。

也就是说,加权检索,就是计算机在将检索词同索引词进行对比时,同时统计权值。然后按值的大小顺序排列,用临界值确定输出的下限。这些工作,对于计算机来说是轻而易举的。加权检索是同布尔逻辑检索完全不同的匹配方法,但其结果是相同的,即凡是布尔逻辑的功能,加权检索也能实现。对于需要进行逻辑非的词,加权时可用负数。

二、截词检索

所谓截词检索,就是把检索词截断(加上截词符号),让计算机按照字的部分片断同索引词对比。这里有前方一致(右截断)、后方一致(左截断)以及中间一致(左右同时截断)等三种方法。

1.前方一致

查计算机(computer)这个检索词时,若用截断符号*,可写成computer*,则索引词computer,computers,computerise,computerize等均算命中。这种右截词的方法在计算机化的情报检索中被广泛使用,因为这样可以省去写各种词尾有变化的检索词的麻烦,有助于提高查全率。当然,在何处截断,这是要认真考虑的,如果把computer一词截断成com*,那么就会使所有com开头的索引词均被检出,其结果是误检率大增。

2.后方一致

把截断符号放在字根的左边,如,computer,那么计算机进行匹配时,索引词minicomputer,microcomputer均算命中。这种左截断检索方式,对于某些课题的检索是很有用的。例如*mycin,则可查出一大批有关抗菌素的文献。

3.中间一致

把检索词左右都同时截断,如*computer*,则可命中那些其中间部分包含这个字根的所有索引词,如minicomputer*,minicomputers等等。显然,这种左右同时截断的方法。在检索较广泛的课题的资料时,能获得较高的查全率。

截词检索事实上只是计算机进行检索同与索引词之间的前方一致、后方一致、中间一致的对比匹配方式。这种匹配方式虽然手工检索时也可进行,但计算机的效率要高得多。因此截词检索是发挥计算机本身优势、应用计算机固有的指定位对比判断功能的一种检索匹配方式,也是计算机情报检索出现之后才产生的一种新的检索方法。

三、通用字符检索

在英语中,有的字有不同的写法。例如颜色这个字有两种拼写形式——Colour,Color。硫也可分别拼写成Sulfur或Sulphur。这样的问题,不是截词检索可以胜任的。这样,为了使不同拼写方法的硫或颜色的索引词都能被检索出来,就出现了通用字符检索方法。它一是将拼写有变化的字母处以通用字符符号,如Sul*ur。这样,计算机在进行匹配时,凡两端的字母相同,中间字母有所出入的都算命中,从而使Sulfur和sulphur同时都被命中。通用字符检索,也可以叫做插入截词。事实上它是前后方一致的匹配方式。

现代化信息检索技术操作方法

一、通过Internet网络检索国外数据库

Internet具有功能多、速度快、费用低等特点,尤其是能在Internet网上进行联机数据库的检索,因而受到了国外大多数联机数据库服务机构的青睐。近年来,国内用户所熟悉的一些大型商业联机系统纷纷上网,为自己在Internet上开设了用户存取网点,如DIALOG,STN,ORBIT等。由于我国的一些网络如NCFC也已与Internet相连,因此利用Internet与国际联机系统取得联系并检索其数据库已经成为可能。

1.常用联机系统在Internet上的地址

长期以来,用户检索DIAlOG等系统的数据库,都是通过SprintNET或TYMNET通信系统与远程主机相连的,但是自Internet出现后,这种状况被改变了,由于在最基本的通信水平上,Internet与SprintNET和TYMNET相比毫不逊色,因而人们有了新的选择。

使用Internet,查询者就像通过其他通信网络一样方便地进入远程主机系统,不过,在Internet上要求有比较高的速度,而通信速度的高低主要受本地计算机限制,因此,在使用Internet之前,最好应选择速率为9600bps或9600bps以上的MODEN。

用户在通过Internet进行远程联机之前,首先要知道对方在Internet网上的地址,然后还要在对方主机注册用户名并取得用户口令,有了这些才能成功地进入对方系统获取所需信息资源。对于原来通过TYMNET联机的国内用户,只要计算机上了Internet网,再知道对方主机的地址就能顺利进行检索了。

2.用户如何通过Internet进入国外联机数据库系统(1)Internet用户如何进入国外联机数据库

Internet允许各种不同型号的计算机,不管是苹果电脑还是IBM个人计算机甚至大型主机都可以与之相联。在分布式计算机与分布式计算环境中,常常需要调用位于远程计算机上的资源,协调其同本地机器上的作业,进程之间的工作,使得多台计算机能共同完成一个较大的任务。这时就要求登录到远程机上去,启动某个进程,并且使进程之间能互相通信。为了达到这个目的,人们开发了远程终端协议,称为Telnet协议,它允许用户在本地机上与远地机上的服务器建立通信连接,然后将本地机上输入的字符串直接送到远程机上去执行,该协议中还设置了许多子命令可用于控制通信和会话过程。

远程登录功能为直接登录远地计算机系统提供了一个用户接口。通过Telnet命令,用户可以进入某些对其开放的结点机,然后利用其他UNIX命令来存取访问结点机上的资源。本地机、远程机之间遵循TELNET协议。

命令格式:telnethostport

telnet命令后跟对方主机名,这样就直接登录到远地机上。

当只键入telnet命令时,屏幕上显示‘telnet’提示符,从而进入可以接受子命令方式。在此方式下可以执行下述各种子命令。

一旦建立一次连接,telnet就进入了输入方式,此时从键盘上输入任何字符都被送到远地机上显示或解释执行。

常用的子命令有:openhostport

与给出的host建立连接,开始一次远程登录会话,host部为主机域名或IP地址。

Close:结束远程登录会话,并退出telnet过程。quit:同close。

另外还有一些子命令,这里不一一列出。

除了直接用Telnet命令登录远程主机以外,目前在Internet上,查询数据库资源的方法还有客户机/服务器(client/server)模式,采用这种方法,用户只要运行客户机上的软件,就能进入Internet上的某个服务器,如Gopher,WWW,WAIS等,通过这些服务器,用户只要指定查询内容,服务器就能在Internet网上自动切换成Telnet命令完成本地机与远程机的连接,搜索用户所需的信息。这些功能的主要好处在于能帮助不知道网上有哪些数据库资源和不清楚对方主机地址的用户得到自己所需的信息。

对于已经知道地址的联机数据库系统而言,用户只要用Telnet命令接该系统地址直接登录到国外主机上就行了。

目前,国外的许多大学图书馆都提供通过Telnet的对外联机检索服务。一些政府机构及研究机构也将他们的数据库对外开放,提供各种菜单驱动的用户接口,甚至全文检索接口,供用户查询。进行远程登录时,用户首先应在Telnet命令后给出计算机的通信域名或IP地址,然后根据对方的询问,正确键入自己的用户名和口令。有时还需回答自己所用仿真终端的类型,如VT100、VT52等。

另外,Internet上有的数据库提供开放式的远程登录服务,查询这类数据库不需用户事先取得账户和口令,可使用该系统公开的公共用户(Guest)进入。

(2)非网上用户如何联通Internet

目前,国内为机构团体和个人提供Internet上网服务的单位主要有邮电部、中科院网络中心、中科院高能物理研究所等,入网方式多种多样。下面以邮电部的CHINANET为例,具体讲一讲连接方式。CHINANET是邮电部门经营管理的中国公用INTER—NET,中国的Internet骨干网。CHINANET的接入方式灵活,其接点遍及全国各大城市,通过它用户可以方便地接入国际Internet,享用Internet上丰富的资源。

①拨号入网

其一,拨号CHINANET上的UNIX主机入网。

拨号入网经济实惠,适于业务较小的单位和个人使用。拨号入网的用户需具备:一台PC机、普通的通信软件、一台MODEN和一条电话线,到当地邮局申请一个入网账号,即可使用。每次通信首先通过电话拨号登录到CHINANET的UNIX上的主机,运行的是IP软件,因此用户只要通过UNIX主机提供的软件即可进入Internet。拨号入网可以使用电子信箱,Telnet、Gopher和ETP等服务。

其二,通过SLIP/PPP协议入网

通过SLIP/PPP协议,用户可以电话拨号方式实现与专线入网完全相同的功能。该方式适于业务较小但又希望以主机方式入网的用户使用,通过SLIP/PPP协议入网的用户所需的硬件与普通拨号方式完全相同,不同的是需配备SLIP/PPPP软件。通过SLIP/PPP协议入网用户可享受Internet的所有服务。

②通过分组网入网

其一,通过CHINANET的UNIX主机入网

该方式适合于分组网上的所有用户。用户仅需到当地电信局申请一个Internet账号,和办理有关手续即可从分组用户变为Internet用户。该方式入网的用户可以使用的Internet服务同普通拨号入网的用户完全相同。该方式入网的优点是通信费与通信距离无关。

其二,通过分组网以TCP/lP协议入网