社科网首页
您现在的位置是: 首页 > 研究成果
网络技术与科研工作——国际学科的实证研究
作者:李晖 来源: 时间:2000-02-01
院基础研究课题: 《网络技术与科研工作 —国际学科的实证研究》 研究报告 网络技术与科研工作 ——国际学科的实证研究 陈新 李晖 著 中国社会科学院国际片网络中心 2000年2月,北京 目 录 引言 3 第一节 网络技术和人文社会科学研究工作 4 一、因特网技术的简要历史回顾 4 二、网络技术给人文社会科学研究工作带来的影响 7 三、网络技术在人文社会科学研究领域中的主要应用 8 四、人文社会科学学术网络面临的任务 9 第二节 网络资源的搜索 12 一、搜索引擎的诞生 12 二、搜索引擎的分类 12 三、搜索引擎的现状 15 四、搜索引擎使用过程中需要注意的问题 16 五、搜索引擎的未来发展趋势 17 第三节 网络资源的共享 19 一、数据库领域的新进展 19 二、数据库新应用的挑战 21 三、全文检索技术 22 四、人文社会科学学术网络中的数据库应用 25 第四节 科研工作与信息开发—国际片的经验 26 一、普及网络常识,提高计算机应用水平 26 二、中文信息开发 28 三、外文信息开发 29 结语 31 引 言   计算机的出现,让我们即将告别笔与纸的时代。计算机网络技术的出现,缩短了我们在时间和空间上的距离,加速了信息的流通。而因特网的出现,尤其是万维网(World Wide Web)技术的出现和迅猛发展,则给科研工作带来了一场全新的革命。      面对新技术带来的挑战和机遇,怎样让网络技术更好地为科研工作服务,这是本课题研究的中心问题。鉴于国际学科的特殊性,因此,本课题主要从国际学科研究的角度,综合自身的实践和经验,通过实证的方式来探讨这一问题。同时,国际片作为全院的试点,较早地进行了联网工作,现在为配合全院计算机网络系统的开通以及同因特网的联通,有必要将国际片在网络技术如何为科研服务这一问题上的做法和经验进行总结,并同全院科研人员进行共享。      信息是科研工作的生命,而因特网已经成为全球最大的信息载体。面对这茫茫的信息大海,本课题着重探讨2大方面的内容。一是如何引导研究人员尽快地、尽可能准确地去获得所需的动态信息。这牵涉到如何利用因特网以及怎样用好因特网的问题。二是如何有组织地把共用的基础信息从因特网上下载下来并进行加工整理,利用全院计算机网络所提供的平台发布给研究人员使用。这样一可以提高研究人员搜寻信息的效率,二可以避免重复上网、提高上网速度、节约院里数据通讯费用。      本课题得到了院网络中心的领导和专家、国际片有关所领导及研究人员的大力支持,在此表示感谢。课题的项目成果有:1、本研究报告,执笔人是陈新(引言、第一节、第二节、第三节、结语)、李晖(第四节);2、电子版《国际问题研究因特网资源指南》(修订版),参与人员有陈新、李晖、李丹琳。原定另一电子版成果--《国际问题研究因特网共用信息库》,因课题批准金额与申报金额之间差距过大,所以只进行了一些前期准备工作。       第一节 网络技术和人文社会科学研究工作   随着计算机技术的普及和应用,计算机已经不再是自然科学研究独享的重要工具,它在人文社会科学研究领域也开始发挥越来越重要的作用。计算机以及数码加工技术在人文社会科学研究所需资源的建立、收集、存储以及学术信息的普及方面得到广泛使用。网络技术的出现,摆脱了计算机在人文社会科学研究中仅仅作为高级打字机来使用的局面。信息时代的计算机网络,特别是因特网技术突飞猛进的发展,为人文社会科学研究工作带来了新天地。 一、因特网技术的简要历史回顾   1969年美国国防部高级研究计划署(ARPA)的研究开发项目阿帕网(ARPANET)联网成功,奠定了远程计算机网络互联的开端。1974年5月,TCP/IP协议获得“国际网络工作会议”的通过,为国际网络互联确定了标准。因特网对于科研工作而言,其价值更主要体现在它的应用上。      1971年,电子邮件(Email)系统在美国发明,很快成为计算机网络上的当红明星。据统计,到了1973年,ARPA的研究显示ARPA网75%的流量是Email带来的,Email已经成为ARPA网研究人员之间主要的交流工具。现在,电子邮件仍然是因特网上最主要的交流方式之一。上网的用户最先使用的功能肯定是Email,因为必须有个Email地址来证明他在使用网络,甚至在很多人眼里Internet就等于Email。最受欢迎的网络应用当属Email无疑。      1987年9月20日,钱天白教授发出我国第一封电子邮件“越过长城,通向世界”,揭开了中国人使用Internet的序幕。钱天白教授负责的CANET(Chinese Academic Network)国际联网项目是在1986年由北京市计算机应用研究所实施的科研项目,其合作伙伴是原西德的卡尔斯鲁厄(KARLSRUHE)大学。      Email是一种最普遍的交流方式,但它不是一种唯一的交流方式。1979年使用UUCP协议建立起来的网上讨论小组(USENET)就是一种非常著名的应用,并且发展成了全球最大的讨论组,讨论内容从早期的同计算机技术相关的论题,到现在成为一个无所不包的讨论全球社区。      另一种交流方式就是实时聊天,最著名的应该是1988年由Jarkko Oikarinen开发的IRC软件,该软件可以让用户通过Internet进行实时聊天。但是最早的网上聊天行为,却发生在1972年,当时一个在斯坦福大学神经科的病人Parry,通过当时的ARPA网同位于BBN的医生进行交谈。显然当时的研究人员不够浪漫,如果他们能够让一对恋人来做这第一次聊天,可能会更加有趣。不过这也不能怪他们,因为他们在设计这个网络时,压根儿就没有想到该网络的娱乐功能。      真正给Internet带来质的变化的是万维网(WWW)的发明。在WWW发明之前,人们使用网络的方式主要有:Email、Telnet、FTP等,应用非常单调。但是WWW的出现,使得大量应用如雨后春笋迅速冒了出来。      1989 年 3 月,在位于日内瓦的欧洲粒子物理实验室 (CERN) 工作的英国计算机学者 Tim Berners -Lee 提出了一项提案,建议在 CERN 建立一个由超文本链接方式组成的信息网 Web ,使分散在世界各地的高能物理学家们能够通过 Internet 方便地进行通信和更好地共享设备及信息资源。该提案经采纳后由 Tim 本人负责主持实施。 1990 年 11 月, NeXT 公司 (为 Apple 公司创始人之一斯蒂夫•乔布斯 Steve Jobs 组建,现已并入 Apple 企业)发布了最初的 World Wide Web (后来简称 WWW 或 W3 )模型。 1991 年, CERN 正式向外界发布了 W3 协议标准。      在 WWW 标准基础上,由 MIT( 美国麻省理工学院 ) 、 CERN 及 INRA( 法国计算机与控制国家研究院 ) 参加组成的合作机构提出了新的、更为复杂的超文本标记语言 (HTML) 草案,经评估、筛选,发布了 HTML 标准 1.0 版,后来又陆续升级为 HTML2.0 版和 3. 0 版。      在 WWW 和 HTML 标准支持下,各种文字、图形、图像、声音形式的多媒体信息能够通过一种统一的友好界面直接呈示在用户面前,同时可以实现各种信息资源的自由链接,并集各种信息服务方式如 Email (电子邮件)、 FTP (文件传输)、 GOPHER (一种基于菜单的文件传输服务)以及信息检索服务于一体,极大地方便了用户在网上的信息查询、检索和浏览。      采用 WWW 和 HTML 标准开发的新型用户界面──浏览器的出现,使 Internet 走出高科技的实验室,通向了各行各业和千家万户。从此用户无须掌握高深的计算机专业知识,只要会一些基本的鼠标、键盘操作,坐在自己的办公室或家中,即可随心所欲地去到信息的汪洋大海中 " 冲浪 " 、漫游。      与此同时,WWW的出现很快也掀起了政府机构和企业和媒体上网的狂潮。1992年,世界银行上网;1993年,美国总统府白宫上网,联合国上网,同年企业和媒体也开始关注Internet。1994年5月15日,中国科学院高能物理研究所设立了国内第一个WEB服务器,推出中国第一套网页,内容除介绍我国高科技发展外,还有一个栏目叫“Tour in China”。      WWW 的推出是 Internet 发展史上的又一件具有划时代意义的重大事件。从 Internet 联网主机增长曲线 可以看出,在 WWW 推出后的 1994 到 1995 年间,这一曲线有一小段 " 转折区 " ,此后主机的增长速度明显有了大幅度的提高。到了1995年4月,WWW的数据流量已经超过了FTP,成为Internet最大的服务项目。仅 1995 年一年之内, Internet 上的 WWW 服务器就激争了 24 倍, Internet 从此进入了一个飞速发展的时期。       图1:域名增长趋势            图2:网络增长趋势            图3:Web站点增长趋势                  图4:主机数量      图表来源:http://www.infoweb.com.cn    二、网络技术给人文社会科学研究工作带来的影响   网络技术的不断发展,给人文社会科学带来了深远的影响。      这方面的影响首先表现在科研手段的重大变革上。同传统的计算机相比,信息时代的计算机技术更是强调了网络功能。变化之一表现为电子通讯功能的加强,它允许信息通过计算机网络进行传输。变化之二表现为多媒体平台的出现,它允许对多种媒体的资料(文本、表格、图形、声音、影像、数据库数据等)在同一平台上进行加工。这些变化为科研工作提供了极大的便利。      其次,网络技术改变了传统的时间和空间的概念,打破了因时间和空间因素造成的束缚。就国际问题研究而言,从时间的角度来看,以往的资料和信息主要来自于国外的出版物以及同国外研究机构的科研交流,这些资料和信息在时间上有一定的滞后性。而网络技术,特别是现今的因特网技术能够保证国际问题研究所需的主要信息(特别是实时性信息)即刻呈现在你的面前。从空间的角度来看,以往同国外或者国内的同行进行学术交流和讨论,因空间距离的隔阂而受到限制,而因特网技术则提供了随时与同行进行实时交流的良好平台。因此,网络技术大大缩减了因时间和空间的障碍所带来的不便。      网络技术还为弘扬中国人文社会科学,在世界范围内传播中国人文社会科学知识提供了极好的手段。弘扬中国的人文社会科学,介绍中国人文社会科学的最新进展,传播中华历史和文化,传统的手段是通过纸质介质,广播电视通讯以及人员交流。网络技术的出现,特别是通过WWW站点,可以在更广泛的时间和空间的范畴内传播中国人文社会科学知识。      网络技术对科研工作同时也带来了机遇和挑战。因特网作为全球性的计算机网络,虽然产生于60年代末、70年代初,但其迅猛发展要归功于1992年万维网标准的制定和发布。从那时起,万维网站点从开始的20个发展到1998年初的297万个。万维网因作为富有成效的、科研工作所必不可少的工具和手段而得到了世界各国研究人员的承认和首肯。不同地域的研究人员通过因特网群策群力、通力合作已经成为当代科研工作的一个新的重要趋势。网络技术给科研工作带来了新的机遇,主要表现为资源共享、信息共享、交流便利。同时,网络技术也给科研工作带来了新的挑战,主要表现为信息过载、有用信息搜寻命中率低并且耗费时间较多、信息质量良莠不齐、实时讨论缺乏组织性、网络社会的文化及规则需待进一步明确,等等。 三、网络技术在人文社会科学研究领域中的主要应用   网络技术的发展以及操作的便利为人文社会科学研究人员在信息交换和使用方面带来显著的影响。因特网于90年代中期进入中国后,在科研工作中发挥了低成本、高效率的作用。电子邮件的广泛应用,文献的交换,合作研究的开展,在线信息资源的提供等成为因特网应用的主要形式。      1987年9月20日,钱天白教授向原西德的卡尔斯鲁厄(KARLSRUHE)大学的合作伙伴发出我国第一封电子邮件“越过长城,通向世界”,揭开了中国人使用电子邮件的序幕,同时也揭开了中国人使用Internet的序幕。大多数的中国人文社会科学人员使用因特网是从发送和接收电子邮件开始的。中国社会科学院东欧中亚研究所于1995年通过北京市电报局的分组交换网CHINAPAC接入因特网,在全院较早地驶入信息高速公路。当时,欧亚所最主要的应用是收发电子邮件。      随着电子邮件的广泛应用,产生了网上讨论小组和公告栏这2种新形式。讨论小组允许学者之间交换思想,并为同一研究领域的小组成员发布信息。信息涉及公告、会议通知、信息请求等。此外,使用者还可以将信息“贴”到电子公告栏上,并可以登录进去,查看感兴趣的信息和评论。许多学者只使用与自己研究领域相关的公告栏和讨论小组。      网络信息不仅仅指电子邮件、小组讨论、公告栏等,因特网还提供实时的电子文献,自动操作的图书馆目录以及许多信息服务。例如,你可以在美国国会图书馆里查询国会报告、全文的图书和杂志、人口调查数据以及其他数字数据等。由此产生了“虚拟图书馆”的概念。      计算机除了用于文字处理,收发电子邮件,进行简单的数据库或目录在线检索之外,人文社会科学进行以计算机为基础的工作还有:提供一般资源,例如图书馆目录,字典,参考文献;通过回溯的方式将文稿或纸质资源转换成计算机可以阅读的格式;建立专门的检索工具,例如数据库和镜像库;从较大的电子资源中抽取摘要性数据,例如人口调查资料和税收资料;借助于计算机的辅助对理论假设进行研究和对模型进行验证。      随着上网速度的提高和带宽的增加,以及网上信息的日益丰富,图书馆管理人员、研究人员和信息技术人员已经开始共同合作,建立新的应用软件和程序,以满足人文社会科学研究人员的需要。例如,探索新的出版方式,将图形和幻灯片进行数码化,将音像文献数码化,把手稿、文献和稀有书籍进行高质量的扫描并加以保存,开发多媒体课程教材和交互式课程。随着因特网的高速发展,这些应用也迅速增加。万维网(World Wiede Web)可以使得全球成千上万个用户获得并传输多媒体文件,可以在网上找到数码文本文献、在线杂志、参考书目、学者社团信息、学校教程、在线目录、学位论文以及其他与人文社会科学有关的成果。      人文社会科学里的工作主要基于文本,因此,电子文本开发项目作为学术性资源已变得越来越重要。电子文本包括学术论文的写作和编辑,参考文献、参考书目和教学指南的收集和编撰。最丰富的电子文本的生产和提供者应该将人文社会科学研究、图书馆知识和计算机的专门知识结合为一体。在国外人文社会科学研究领域,从手稿和印刷好资源转换而来的电子文本可以来自不同的格式和不同的地点。一些电子文本项目侧重点在于全面包容,而另一些项目则侧重于专业领域。一些项目带有可供分析的软件,并且只能通过该软件来阅读;而另一些项目则提供纯文本,资源处理软件则由使用者本人进行选择。      随着新技术带来的影响不断加深,人文社会科学研究人员的传统形象正在改变。因特网使得研究人员能够从全世界获得参考文献,讨论小组,电子期刊,公告栏,并且在全球范围内保持与专业领域内学者社团之间的联系,开展学术合作研究。这给学术机构的组织机制带来挑战。共同的兴趣把学者们联系在一起,摆脱了国界、时间、地域、学科的限制,使跨学科、多层面的研究的开展更为便利。计算机和网络的使用更是改变了学者的思维方式和学术研究的组织工作。获取资料的便利,不受时间的限制,资料整理的方便,使得研究人员不用把大量时间放在资料搜寻上,而是放在思考上。因此,网络技术不仅带来了设备、技能和手段,而且还会改变人们的行为方式和工作实践。 四、人文社会科学学术网络面临的任务   随着网络技术的不断推广,人文社会科学研究机构也纷纷组建计算机网络,并进行网络互联,进入互联网。建网的目的是为人文社会科学研究服务,这是任何时候都必须坚持的宗旨。在因特网迅猛发展的时代,怎样让因特网更好地为科研工作服务,是人文社会科学学术网络所面临的问题。      在学术网络建成以后,网络运营和管理者面临的首要问题是尽快进行培训和提供技术支持。这2项服务是在人文社会科学研究领域是否成功地引进并吸收新技术的关键。      由于种种原因,相对于自然科学而言,人文社会科学研究领域引进计算机以及网络技术较晚,使用水平也相对教落后。因此,在硬件条件具备之后,迅速对人文社会科学研究人员进行计算机以及网络知识培训是首要任务。没有人使用的网络,尽管从技术上看网络如何完美,那也是一个死气沉沉的网络,并且是对资源的极大浪费。在培训过程中,知道研究人员希望使用、并且有效地使用可以使用的资源应该是培训中重点的重点。此外,培训应该是一个长期的任务。网络不断会有新的功能,新的应用软件也在不断产生,这些都需要有选择地、有针对性地对研究人员进行培训。      技术支持是人文社会科学学术网络应该提供的又一重要服务。在经过速成式的应用培训之后,不可能保证被培训的人员百分之百地能够掌握培训内容,因此,技术支持成为提高人文社会科学科研人员计算机和网络应用水平的重要保证。技术支持的方式可以分为以下几种:    * 网上技术支持。具体可以分为《操作手册》的网络发布,疑难解答(FAQ),电子邮件响应等; * 电话技术支持。在网上技术支持不能解决的情况下,可以通过电话解答的方式提供技术支持; * 现场技术支持。在上述2者都不能解决的情况下,或者网络出现硬件故障的情况下,需要进行现场技术支持。      除了上述2项服务之外,人文社会科学学术网络还需要进行一些基础设施性的工作。主要表现为:    1、 发布人文社会科学信息。建立和发布人文社会科学信息并且致力于建设信息丰富的学术社团是今后一项长远的基本任务。 2、 订阅在线数据库。学术机构一般都订阅了不少纸质介质的学术刊物。现在网上已经有许多服务商和公司提供学术刊物的在线数据库服务。这些数据库往往包容了大量学术刊物的全文资料,并提供多种检索方式。订阅这些数据库,能够尽早地获得这些学术刊物的最新内容,同时又能完成回溯性查询和检索工作,还会避免过刊因借出而带来的遗憾。这些都是纸质介质的刊物所不能比拟的。尽快订阅在线数据库,既能避免资金上的重复和浪费,还能向科研人员提供更多地网络学术内容,真正做到为科研服务。 3、 整理网上电子出版物。除了在线数据库之外,网上有许多电子出版物也是进行人文社会科学研究的极好参考资源。有许多电子出版物是免费的。考虑到版权和知识产权问题,将这些电子出版物下载,并在学术网络范围内加以发布,在短期内可以作为应急举措来看待,但长远来看,不太可取。但是,对这些电子出版物进行整理,然后在网上制作链接,不失为一个好的解决办法。 4、 编制网络资源指南。在因特网急剧膨胀的今天,在网上寻找到有用的信息,并不总是一件容易的事情。因此,编制人文社会科学网络资源指南,将有助于科研人员在网上便利地寻找所需要的信息。 5、 建立数字图书馆。这是一项长期而又艰巨的任务,并且可能需要多家机构和单位的共同协作。      当然,要开展好上述工作,需要理顺一些关系。    第一, 体制的约束性。是采用行政方式管理人文社会科学学术网络,还是采用商业方式运行,这一问题,其实不仅存在于人文社会科学学术单位,它普遍存在于国家机关的网络管理领域。一般而言,这2种方式各有利弊。需要值得指出的是,如果采用行政方式管理学术网络,就必须力图避免陷入行政机构的烦琐的行为方式陷阱之中;如果采用商业化运营方式,那应考虑到人文社会科学的社会性一面,避免利用学术资源的垄断优势,一味追求唯利是图。 第二, 组织结构上的约束。人文社会科学学术机构的网络中心和该机构的图书馆之间的相互职责划分问题是管好学术网络的又一关键问题。这二者之间的区别实际上是ISP(因特网服务提供商)和ICP(因特网内容提供商)之间的区别。 第三, 观念上的约束。网络是新生事物,网络资源是新生资源。挖掘、开发网络资源,需要进行投入,并且资源开发出来后,对人文社会科学研究人员而言,不仅省时省力,并且能起到事半功倍的效果。因此,对网络资源的开发利用问题,至少应该需要提高到科研课题的高度来加以解决。 第四, 人力资源问题。人文社会科学学术网络的开发和应用,需要一批既掌握计算机以及网络知识,又对人文社会科学具有深入了解的人才。离开这方面人才的介入,学术网络有可能不会显现出自己的特色,不能满足人文社会科学科研工作的要求。现今许多著名的ICP网站内容设置大多雷同,关键在于他们靠技术起家,但忽略了专业人才的吸收,因此,在内容上没有自己的独到之处。   网络技术在日益发展,随着也会不断带来新问题。怎样把网络技术同科研工作更好地结合起来,应该是一项长期不断的研究课题。      下面,本文将从个人和组织2个层次具体探讨网络对科研工作的应用问题。       第二节 网络资源的搜索   就个人层次而言,在掌握了必要的计算机和网络知识的条件下,用好网络的关键在于怎样从网上搜索到有用的信息,以便更好地为人文社会科学研究工作服务。在网上搜索信息的最好方式是通过搜索引擎来在因特网上进行检索。 一、搜索引擎的诞生   1993年,Internet上出现了最早的Web浏览器Mosaic,次年Netscape推出了Navigator,浏览器的发展促使Web得到迅速推广,同时也推动着搜索引擎的发展。1994年初,Internet上出现了包括Lycos在内的第一批Web搜索引擎,同年还成立了Yahoo!,后者成为了近年来最成功的商业目录。现在Internet上已有数千个提供搜索服务的站点,它们不仅要努力改进自己的服务以便能在激烈的竞争中生存下来,还要努力寻求新技术以便能适应Internet的迅速扩张。      第一波搜索引擎和网路目录如雅虎(Yahoo!)、Lycos、Excite等数年前就已经不单是搜索引擎了,他们在网站上增加了许多东西,从免费电子邮件、游戏到聊天等等。他们的目标是将自己转变为“网上门户”,一个对用户来说样样都有的终极网上目的地。      但另有些相对较小的公司认为,专业化也可以有很大的赚钱空间。不管如何,搜索依然是网上大众的常规行为,据纽约市场研究机构朱比特通讯公司(Jupiter Communications)1999年8月份所做的调查,88%的网民使用搜索工具,仅次于电子邮件。      有鉴于此,这些公司发现搜索引擎的市场需求量依然很大,只要产生更快和更管用的结果,就可以节省用户大量的时间。现在,如何找到更好的方式,来指引用户到确实有他们需要的内容的网站上,而不是拿出一堆仅有相关主题的混乱的网址,这是搜索引擎普遍面临的问题。 二、搜索引擎的分类   由于每日将有成千上万的新网站和网页产生,因此如何将数百万网页进行分类并加以更新,以便使所提供的搜索和目录服务脱颖而出,这正是许多搜索引擎公司日思夜想的问题。有些公司试图通过在搜索过程中增加人工的成分,有些则在使用常规的“蜘蛛”软件(又称机器人Robot)爬梳新网站之余,另外增加了些技术调整。      比如,SavvySearch.com是个“动态搜索引擎”,将超过200种来源的搜索结果结合在一起并加以排列。Google.com的排列规则根据网站有多少链接。Dircthit.com的排列系统也很独特,它根据以前的搜索者在网站上花费的时间来排列。goto.com依赖相对简单的办法:哪个网站出钱多,就将谁排在前头。about.com增加了人力因素,有650个指南,分成2万个主题,时刻跟踪网上时局。每个主题各自将各自的电子空间角落兜底翻,撰写短小的概述,并不断修改到相关网站的链接。      搜索引擎实际上并不是根据你的请求而即时对网际空间进行搜索,实际上他们搜索的是机器人Robot软件或编辑数天前整理出来的网页资料库。这就是为什么两个搜索引擎往往给出大相径庭的搜索结果,而同一个搜索引擎的搜索结果也可能因时而异。人工尽管比电脑速度慢,但可以提供更多的相关性。新的搜索服务之间的竞争日趋激烈,各种创新发明应运而生,从而导致了“搜索服务的某种文艺复兴”。      尽管目前存在数量众多的搜索引擎,但根据它们所基于的技术原理,可以把它们分成三大主要类型:基于机器人Robot(或称“蜘蛛”)的搜索引擎、目录(Directory,也叫做Catalog)排列方式和元(Meta)搜索引擎。 1、基于机器人(Robot)的搜索引擎   这种搜索引擎的特点是利用一个称为机器人Robot(也叫做Spider、Web Crawler或Web Wanderer)的程序自动访问Web站点,提取站点上的网页,并根据网页中的链接进一步提取其它网页,或转移到其它站点上。Robot搜集的网页被加入到搜索引擎的数据库中,供用户查询使用。Internet上最早出现的搜索引擎就是利用Robot来建立数据库,“搜索引擎”这个词的原义也只是指这种狭义上的基于Robot的搜索引擎。      基于Robot的搜索引擎由三个主要部分构成:Robot、Index和搜索软件。Robot从一个事先制定好的URLs列表出发,这个列表中的URLs通常是从以往访问记录中提取出来的,特别是一些热门站点和“What's New”网页。从Usenet等地方检索得到的URLs也常被用作起始URLs。此外,很多搜索引擎还接受用户提交的URLs,这些URLs也会被安排在列表中供Robot访问。Robot访问了一个网页后,会对它进行分析,提取出新的URLs,将之加入到访问列表中,如此递归地访问Web。      Robot作为一个程序,可以用C、Perl、Java等语言来编写,可以运行在Unix、Solaris、Windows、NT、OS2和MAC等平台上。Robot设计是否合理将直接影响它访问Web的效率,影响搜索数据库的质量,另外,在设计Robot时还必须考虑它对网络和被访问站点的影响,因为Robot一般都运行在速度快、带宽高的主机上,如果它快速访问一个速度比较慢的目标站点,就有可能会导致该站点出现阻塞甚至当机。Robot还应遵守一些协议,以便被访问站点的管理员能够确定哪些内容能被访问,哪些不能。      Index是一个庞大的数据库,Robot提取的网页将被放入到Index中以便建立索引,不同的搜索引擎会采取不同方式来建立索引,有的对整个HTML文件的所有单词都建立索引,有的只分析HTML文件的标题或前几段内容,还有的能处理HTML文件中的META标记或其它不可见的特殊标记。      基于Robot的搜索引擎一般要定期访问大多数以前搜集的网页,刷新Index,以反映出网页的更新情况,去除一些死链接,网页的部分内容和变化情况将会反映到用户查询的结果中,这是基于Robot的搜索引擎的一个重要特征。      Index在建立索引时,一般会给网页中每个关键词赋予一个等级值,表示该网页与关键词之间的符合程度。当用户查询一个关键词时,搜索软件将搜索Index,找出所有与关键词相符合的网页,有时候这些网页可能有成千上万,等级值的用途就是作为一种排序的依据,搜索软件将按照等级值从高到低的顺序把搜索结果送回到用户的浏览器中。      不同的搜索引擎在计算等级值时使用了不同的方法,但它们都以关键词在网页中出现的位置和频率为基本依据,例如,关键词出现在标题中的网页可能比只出现在其它地方的网页更符合要求,关键词出现在网页的前面可能比只出现在网页的后面更符合要求,同一个关键词出现多次的网页又可能比只出现一两次的网页更符合要求,把这些因素综合起来考虑便可得出一个计算等级值的公式。不过,绝大多数搜索引擎都没有只按照上述因素来确定计算公式,它们还加入了一些特殊考虑,例如,Excite能检查是否有很多链接指向同一个网页,如果是的话,它就把这个网页的等级值稍微提高一些,理由是这样的网页一般都具有更大的访问量。      尽管各个搜索引擎都有一套复杂的等级值计算公式,但仅仅依靠一个数值并不能真正反映出网页的质量,事实上,有些网页在设计时就考虑到了Index的特点,故意使用一些技巧让自己得到很高的等级值,以便能排在查询结果的前列,达到提高访问量的目的。 2、目录(Directory)排列方式   目录与基于Robot的搜索引擎所不同的是,目录的数据库是依靠专职编辑或志愿人员建立起来的,这些编辑人员在访问了某个Web站点后撰写一段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在这个类别中,当用户查询某个关键词时,搜索软件只在这些描述中进行搜索。很多目录也接受用户提交的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添加到合适的类别中。      目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别,另外,用户也可以利用目录提供的搜索功能直接查找一个关键词,不过,由于目录只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目录与基于Robot的搜索引擎之间的一大区别。      商业性质的目录一般都是依靠一群专职编辑来建立和维护的,最出名的商业目录Yahoo!雇用了大约一两百名编辑,他们维护的目录一共收集了上百万个站点。不少学术或研究性质的目录是依靠志愿者来建立和维护的,这些志愿者可能是普通的Internet用户,也可能是一群大学生,还有可能是专家学者,1998年才成立的Open Directory采取了开放管理模式,所有Internet用户都可以申请成为它的志愿编辑,目前Open Directory的编辑人员已超过了14000人。      由于目录是依靠人工来评价一个网站的内容,因此用户从目录搜索得到的结果往往比从基于Robot的搜索引擎得到的结果更具参考价值,Yahoo!能取得成功,与此有着莫大的关系。事实上,现在很多搜索站点都同时提供有目录和基于Robot的搜索服务,以便尽可能地为用户提供全面的查询结果。 3、元(Meta)搜索引擎   元(Meta)搜索引擎也叫做Multiple Search Engine,它的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它搜索引擎能够接受的命令格式,并行地访问数个搜索引擎来查询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。      严格意义上来讲,Meta搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。多数Meta搜索引擎在处理其它搜索引擎的返回结果时,只提取出每个搜索引擎的结果中前面10~50条,并将这些条目合并在一起返回给用户,因此最后结果的数量可能会远少于直接在一个搜索引擎上进行查找所得到的数量,这就是为什么很多Internet用户都喜欢使用Meta搜索引擎来查找信息的原因。      Meta搜索引擎实现起来比较简单,但是它也有一定的局限性,例如多数Meta搜索引擎都只能访问少数几个搜索引擎,并且通常不支持这些搜索引擎的高级搜索功能,在处理逻辑查询时也常常会出现错误。 三、搜索引擎的现状   经过了多年的发展之后,现在的搜索引擎功能越来越强大,提供的服务也越来越全面,它们的目标是把自己发展成为用户首选的Internet入口站点,而不仅仅是提供单纯的查询功能。 1、目录和基于Robot的搜索引擎相互结合   由于目录和基于Robot的搜索引擎有各自的优点和缺点,目前它们谁也无法完全取代谁,于是很多搜索站点都同时提供这两种类型的服务。例如Yahoo!主要是一个目录,但它也从有名的搜索引擎服务商Inktomi那里获取网页搜索结果,当用户查询一个关键词时,Yahoo!首先返回从目录中查到的匹配项(由http://search.yahoo.com/来完成),如果用户对结果不满意,或者目录中没有匹配项,那么用户还可以继续查找与关键词匹配的网页(由http://ink.yahoo.com/来完成)。国内两个有名的中文搜索引擎搜狐和Yeah也都是这种模式。Infoseek则主要是一个基于Robot的搜索引擎,但它同时也建立了一个由人工编辑的小型目录。 2、多样化和个性化的服务   现在绝大多数搜索引擎都提供多样化的服务,以吸引更多的用户,商业搜索引擎尤其注重这一点。以Yahoo!为例,用户可以从它的首页中查看新闻、金融证券信息、天气预报、黄页,可以进行网上购物、拍卖、找人,或者使用免费Email和网上寻呼等服务。      近期多个搜索引擎已开始提供个性化的服务,例如Yahoo!的“My Yahoo!”、Infoseek的“Personalized start page”、Lycos的“My Lycos”等,它们允许用户为自己定制起始页面,并选择感兴趣的内容和经常使用的服务放在该页面中。 3、强大的查询功能   与最早的搜索引擎相比,现在的搜索引擎在查询功能方面已有了很大的改进。除了简单的AND、OR和NOT逻辑外,不少搜索引擎还支持相似查询,例如AltaVista、Northern Light、Lycos等支持短语查询,AltaVista的高级搜索功能支持NEAR逻辑等。域搜索也是一项很实用的功能,它允许用户把查询范围限制在网页的某个域中,例如标题、URL、图像标记或链接等,AltaVista、Northern Light和Infoseek等搜索引擎都支持对网页的多种域进行搜索。 四、搜索引擎使用过程中需要注意的问题   使用搜索引擎时需要注意2个问题: 1、鉴于搜索引擎覆盖面不均,需要尝试在多个搜索引擎上进行检索   Internet无疑改善了通信状况,但在线搜索引擎覆盖不均。计算机科学家在登载于美国科学期刊Nature上的一篇研究报告中指出,自从1997年12月起,搜索引擎的覆盖面缩小了,信息高速路上有多于16%的资源未被索引。      搜索引擎存在局限性。它们不能对所有东西都进行搜索,而且不能及时更新。但相对于以前的信息传播方式而言,是一大进步。      根据NEC普林斯顿研究所的Lawrence博士和C. Lee Giles博士对11个主要的搜索引擎进行的研究结果,虽然最大的搜索引擎覆盖了我们现有网络资源的16%,这无疑是很小的一部分。但值得注意的是,如果把这些被调查的11个搜索引擎加在一起,覆盖面会增加到42%。      据估计,能够被索引的公共网络部分大约包含了8亿页的信息和1.8亿幅图象。 2、明确搜索动机,尝试复杂检索方式。   许多人在网络上搜索资料时,都缺乏拟定搜索策略的动机,也不愿意尝试了解复杂系统的使用方式与规则。但是尽管如此,大多数的人却期待搜索引擎能自动产生有效的搜索结果。      这样的发现其实并不让人意外。许多人在网络上查询资料时,常常只会以单一关键字作查询,不知道如何使用逻辑运算符;甚至有人根本连搜索引擎与分类目录的差别都搞不清楚。当然更不用说这样的人会先好好分析自己想要网络回答的问题,订定一个完整而灵活的搜索策略了。      不过也就是因为许多人不愿意正视网络搜索其实有一些技巧,甚至可以被称为是一项必须下工夫才能培养出来的技术。因此针对同一项主题,许多人总是做出重复而且无用的查询。    五、搜索引擎的未来发展趋势   搜索引擎未来的发展面临着两大难题:一是如何跟上Internet的发展速度,二是如何为用户提供更精确的查询结果。近几年来Internet迅速扩张,其上的站点和网页越来越多,预计到2000年,Internet上的文档数量将超过10亿份,而现在最大的两个搜索引擎Northern Light和AltaVista只分别给1.6亿和1.5亿份网页建立了索引,不到Internet现有网页总数的一半,最大的目录Yahoo!也只收集了120万个左右的站点。另一方面,当搜索引擎的数据库越来越大时,用户查询同一个关键词所得到的结果也就越来越多,然而成千上万的结果对用户并没有什么实际意义,用户关心的是能否迅速在开头几十个结果中找到自己需要的信息。面对着这两个难题,目前很多搜索引擎都在发生一些变化,这些变化中包含着搜索引擎未来的发展趋势。 1、目录占据主导地位   目录与基于Robot的搜索引擎相比更具优越性,这一点已为大多数人所接受,在今后的发展中,目录将会占据主导地位,基于Robot的搜索引擎将更多地以辅助工具的面貌出现,而目录将逐渐占据搜索引擎领域的主导地位。不少原来基于Robot的搜索站点都开始提供自己的目录服务。      进入1999年后,一个特殊的目录Open Directory (http://dmoz.org)正引起越来越多的人的注意,它是一个非商业和非盈利性质的目录,却向Yahoo!等著名的商业目录发出了强有力的挑战。Open Directory是由一群志愿人员编制并维护的目录排列方式站点。1998年5月诞生后,发展十分迅速,现在已经成为一个主要的目录排列站点之一。国内有些搜索网站也开始学习这种方式并用于商业应用,例如新浪网前不久推出“我做这个目录的搜索引擎”管理方式。 2、并行处理技术日趋重要   基于Robot的搜索引擎必须随着Internet的发展不断扩大自己的网页数据库,由此会产生很多技术难题,例如怎样及时地获取新网页和刷新数据库,当数据库增大之后如何保证查询效率不会明显降低等,目前要解决这些问题只有依赖于设计合理的并行处理技术。      Inktomi是一家专门向其它搜索站点提供搜索引擎服务的公司,它的搜索引擎在并行处理技术方面有独到之处,整个系统由100台以上的SUN工作站组成,并可根据需要方便地进行扩展,这些工作站相互之间是平等的,它们能独立地搜集网页,建立数据库。当其它搜索站点传来一条查询指令时,一台工作站被随机选中,它将向其它工作站广播查询指令,这样每台工作站都在自己的库中进行搜索,并把结果返回给选中的工作站,这台工作站再把结果汇总起来返回给用户。Inktomi的这种并行处理技术能够有效地适应Internet的扩张,现在已有多家搜索站点正在或准备使用它的服务,其中包括Yahoo!、HotBot、MSN Search、AOL NetFind、GoTo等,预计今后Inktomi会争取到更多的客户。 3、特殊搜索引擎越来越多   搜索引擎的另外一个发展趋势是特殊搜索引擎越来越多,这些特殊搜索引擎只收集了某个方面的网站或网页,例如文学、医学、体育、音乐、MP3、软件等等,其中的内容一般都要比通用搜索引擎更好更精,因此很受用户的欢迎。建立特殊搜索引擎的成本要远小于通用搜索引擎,这也促进了它的发展。 4、建立人文社会科学专业搜索引擎   早日建立人文社会科学的专业搜索引擎应该是人文社会科学学术网络义不容辞的责任。上文已经说到,目录索引已经成为专业搜索引擎站点的发展趋势。在人文社会科学专业搜索引擎尚不具备的情况下,可以编制专业网络资源指南,以便为科研人员提供便捷的网络漫游之路。      本课题的主持人在国际片网络上首次推出全院第一个网络资源指南--《国际问题研究因特网资源指南》。一经推出后,立刻受到国际片科研人员的欢迎,为方便他们上网提供了捷径。       第三节 网络资源的共享   就组织层次而言,开发网络资源,并将它们有机地组织起来,实现共享,才能将人文社会科学学术网络更好地为科研服务这一任务落到实处。网络资源共享具体体现为建设人文社会科学专业数据库。 一、数据库领域的新进展   从1990年至今,数据库领域已经取得了大量的研究成果和新技术,限于篇幅,本文不能详细介绍,仅简单地概括一下几个关键性的新成果和新技术。 1、Web数据源集成   随着Internet和Web技术的迅速发展,Web正在逐渐成为全球性的自主分布式计算环境。Web上的多数站点都具有丰富的数据资源。如果我们能够把遍及全球的Web数据源集成起来,Web将成为一个全球统一的数据库,由全世界共享。Web数据源的集成并非易事,数据异构问题是影响Web数据源集成的最大障碍。Web数据源的异构问题主要包括三个方面:第一方面是模式异构,表现在不同数据源具有不同的存在形式;第二方面是数据异构问题,表现在不同数据源具有不同的数据类型;第三方面是语义异构问题,表现在相同的数据形式有不同的语法表达方式。      从90年代初期开始,Web数据源的集成问题已成为数据库研究的热点。目前,这个问题虽然没有得到圆满解决,但是也取得了很多研究成果。人们的注意力集中在Web数据源的集成和Web数据源的信息检索方面,主要研究了下列问题:① Web数据库的系统结构;② 数据模型和语言;③ 模式异构和语义异构问题。在信息检索方面,人们开始注意研究基于XML的信息检索方法和检索结果中数据对象的可信度确定问题。人们提出了很多Web数据源集成方法和检索技术,取得了很多研究成果,开发出了很多Web数据库原型系统。 2、数据仓库   为了有效地支持决策分析,近几年人们提出了数据仓库的概念。目前,数据仓库已经成为十分活跃的数据库研究领域。联机分析处理(OLAP)是数据仓库上的最重要应用,是决策分析的关键。      数据仓库和数据库管理系统是数据仓库系统的核心。数据仓库是为了有效地支持决策分析而从操作数据库中提取并经过加工后所得到的数据集合。数据仓库也需要由一个数据库管理系统支持,其管理系统目前可以分为两类:一类是关系数据库管理系统;另一类是多维数据库管理系统。      最近几年,国内外在数据仓库方面开展了大量研究工作,主要包括三个方面:第一,提出了联机分析处理(OLAP)的概念,提出了支持OLAP的星型和雪花多维数据模型,并对支持OLAP的多维数据库开展了研究;第二,对复杂数据分析和决策所需要的基本操作进行了考察分析,提出了Cube操作和多维聚集操作,设计实现了Cube操作和多维聚集操作算法,提出了支持Cube操作和多维聚集操作的有效数据结构,如Cubtree等;第三,研究了数据仓库的体系结构、物理化视图的选择、物理化视图的维护、从数据仓库中的综合数据恢复原始数据、快速收集和有效存取数据等问题,提出了一系列的算法和技术。 3、数据挖掘   数据挖掘是当前最为活跃的数据库研究领域之一。它综合了机器学习、统计分析和数据库技术,是解决当前“数据冗余”的一种新技术。不同应用领域的数据挖掘的研究重点是根据各领域的特点,把领域知识融合到一般的数据挖掘算法,设计有效的挖掘算法,从数据中发现对各领域的专家和工作者有用的知识。目前,第一类研究已经取得了大量的研究成果。第二类研究的成果还相对较少。今后还有大量的研究工作需要开展。例如,并行数据挖掘算法、复杂数据(如多媒体数据)的挖掘算法、可视化数据挖掘技术、挖掘结果的质量提高等。 4、数据可视化技术   计算机的信息处理速度和能力在迅速地增长,而人类大脑吸收处理信息的能力和速度却始终保持为一个常数。于是,人类大脑处理信息的能力和速度成为了信息处理的一个瓶颈。提高人类吸收和处理信息的速度和能力是一个迫切需要解决的问题。最近人们发现,数据可视化是提高人类吸收和处理信息的速度和能力的重要途径。数据可视化是指在计算机屏幕上以图形或图像的方式形象地向用户显示各种数据,使用户快速地理解和吸收数据所表示的信息,以提高人类大脑二次处理信息的速度和能力。我们可以把数据可视化方法视为一个从数据库的多维数据空间到计算机屏幕二维空间的映射。      数据可视化可以增强人类吸收处理信息的几方面能力:包括比较数据、理解数据语义、在对数据进行抽象观察时控制抽象级别、从数据的可视化表示映射到原始数据及过滤无用数据的能力。      目前很多数据可视化技术已经被提出,如几何可视化技术、基于图标的可视化技术、基于像素的可视化技术、分层可视化技术、基于图的可视化技术等。数据可视化技术成为重要的数据库研究领域之一。    二、数据库新应用的挑战   近年来,Internet/Web技术和计算机硬件的迅速发展对数据库研究领域产生了巨大的影响,提出了很多新的挑战性问题,促使我们重新考虑数据库研究的方向和问题。 1、Web向数据库领域提出了新挑战。   人们已经开始认识到:Web也是一个全球性的巨型数据库。这对于数据库研究者来说无疑是一个好消息。然而迄今为止,数据库研究界对Web数据库并没有做出很多的贡献。数据库系统至今尚未成为Web体系的一个重要组成部分,而仅仅充当着外围的角色。目前数据库系统在Web应用中仅起到三种作用:第一个作用是作为高端Web服务器;第二个作用是作为电子商务服务器,以传统的方式处理客户交易、账单处理等事务;第三个作用是存储大容量信息发布者的信息。值得注意的是,很多大的Web站点还没有采用数据库技术,多数较小的Web站点都在使用文件系统技术。如何使数据库系统和技术成为Web的有机组成部分,是数据库领域面临的一个新挑战。 2、Web的发展趋势是管理动态信息,而不仅仅是静态的HTML网页。   例如,未来的零售商并不是简单地把纸上的商品目录转换成一组静态的HTML网页,相反地,他们要向客户展示一个电子商品目录,允许客户询问他们所需商品的信息,而无需耗时地浏览商品目录。又例如,零售商要提供人格化的服装模特,展示服装穿在用户身上的样子。模特的人格化要求非常复杂的数据模型和应用。这类新一代Web应用需要非常复杂的数据库技术。这是数据库领域面临的又一个新挑战。 3、HTML正在扩展成为XML。   XML是一种能够更好地描述结构化和半结构化数据的语言。现在多数由XML演化出来的数据查询语言是二十五年前的过程性查询语言的翻版。XML设计者们正陷入分布式事务处理的困扰。十分遗憾的是,数据库系统界没有对XML的研究工作产生太多影响。XML与数据库技术的结合有希望产生令人振奋的结果。      Web应用的开发者们需要能够快速而省钱地构造支持复杂应用的Web信息的工具。这就需要我们研究和开发支持Web信息自动创建、管理、查询和安全控制的新数据库技术和工具。Web用户也需要发现和分析Web信息的工具。      综上所述,Web向数据库领域提出了很多新的挑战性问题。这些挑战性问题为数据库研究者发挥他们的智慧提供了一个良好的机会。 三、全文检索技术   鉴于人文社会科学使用大量的文献和文本资料,因此,在建设人文社会科学的专业数据库的过程中对全文检索技术有极大的需求。 1、全文检索技术面临的挑战   全文检索(Full Text Retrieval)在技术上日趋成熟。中文全文检索技术的研发始于1987年左右,目前已经商品化的软件有近10种。可喜的是,国内厂商自主开发的全文检索系统居于领先地位,市场占有率超过90%以上,包括TRS、Quick IMS、 南辰、 天宇、I-Search等。与此同时,中文全文检索的研究和开发工作仍然面临着许多挑战。      (1) 自然语言处理技术。无论从数据挖掘角度来提高全文检索的查全率和查准率,还是提供更易使用的自然语言查询接口方面,中文自然语言处理仍然是关键因素。      (2) 全文检索系统的评价。与其他领域一样,我国全文检索技术的研究和系统开发缺乏科学的评价,国际上TREC Conference(http://trec.nist.gov) 被认为是最具权威的信息检索技术评测规范,实验室系统、商业系统均积极参加。但国内的系统至今没有参与,要得到国际上的认可,就必须参加TREC。      (3) Internet搜索引擎。全文检索技术是类似于Yahoo等搜索引擎的核心支撑技术, 由于Web以HTML作为置标语言,其相关排序等算法肯定和普通文本的检索不同,同时由于网上信息太多、信息又不可能被机器人全部覆盖,因此对查准率和查全率提出了更高的要求。 2、全文检索技术的应用领域   互联网的普及,使得全文检索技术真正成熟起来,其应用一定要突破传统情报部门或信息中心的局限,全文检索的最广大用户不是检索专家,而是普通桌面和Internet用户。全文检索又是Internet时代对信息消费的多方面需求所决定的,它要求把全文检索技术扩展到桌面型应用软件、光盘出版、企业信息门户、Web站点检索、Internet搜索引擎、电子商务等各个领域。 (1)桌面型应用软件   与全文检索密切相关的桌面型应用软件包括Macintosh 平台的Sherlock搜索技术、webzip、东方网神等方面,这些桌面应用软件虽然在信息检索方面都下了功夫,但在桌面文档管理与Internet信息的收集和管理方面还很薄弱,或者说根本没有此功能。总体来说,这类桌面型应用软件应发展成个人信息门户,应具备如下功能:    * 桌面文档管理:Text、 HTML/XML、 PDF、 Microsoft Office、 WPS、S2/PS2/PS等流行格式的全面支持。 * Internet信息的收集和管理:自动收集和管理,指定一些URLs和Keywords,自动从Internet收集信息并加载到个人资料库;手工辅助收集和管理,使用Web Browser浏览页面时,把所需的网页拖入个人资料库的某分类;联合搜索引擎(All In One Search)则使用数种不同的引擎,如Excite与 Yahoo来搜寻网际网络,搜索结果可以自动加载到个人资料库,或者手工挑选加载到个人资料库。 * 信息分类:给收集到的信息分类,以方便个人资料库的信息查找。 (2)光盘出版和全文检索   在百科全书、法律法规、期刊报纸等资料类光盘电子出版物中,全文检索是核心功能,这类产品对全文检索的特殊要求是:    * 空间膨胀率低。常规中文全文检索系统的空间膨胀为100%~200%,这对于制作像“人民日报50年”这样的光盘来说是很不合适的。 * 跨平台、多语言环境全球版解决方案。浏览器技术是实现跨平台、多语言环境的最好解决方案,最终用户不需要安装特殊软件,就可以在不同平台、不同语言环境下访问光盘上的信息。 * 对各种格式化文档提供全面的支持。目前最常用的包括Text、HTML/XML、 PDF、Microsoft Office、 WPS和S2/PS2/PS等格式。 * 网络版光盘解决方案。以前的电子出版物,如果要在网络上实现多用户操作,需要安装专用程序,采用B/S技术可以圆满地解决问题。 * 跨盘检索和数据追加。 (3)Web站点检索   一个好的检索引擎是一个理想站点的关键。很多人在访问一个站点时喜欢使用站点检索,站点检索应是分类目录导航和全文检索的完美结合,具体包括以下几个方面:    * 分类目录导航的关键是检索范围,检索范围的限制更使得检索结果不会太多、太滥; * 全文检索对于站点检索是必不可少的,在通常情况下能够帮助人们很快地找到所要的网页; * 有时利用分类目录导航和全文检索还很难定位到所要的信息,这时就要组合检索辅助; * 必须有相关排序功能,因为当检索结果太大时,用户不可能一一浏览,大多数用户只浏览前面几条,没有相关排序,可能准确的检索结果排在后面,用户不能浏览到,而排在前面的检索结果却相关性很少,造成用户的错觉。 * 此外,我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面。 (4)Internet搜索引擎   Internet搜索引擎包括三个部分:收集网页的机器人、分类和索引及检索引擎,全文检索技术是搜索引擎的核心支撑技术。搜索引擎比传统的信息检索更为复杂,表现在:    * 信息是分布在Web空间的,要求系统对平台、网络等各种复杂环境的适应能力强; * 信息不稳定,动态性强,因此要求系统的动态索引技术具有超级性能; * 信息是海量的,要求检索引擎具有先进的查询算法,并且对相关排序要求很高; * 由于搜索引擎的用户是普通用户,因此使用知识词典进行启发式检索就显得特别重要,如www.excite.com ,用户在检索XML时,系统会提示可以把Parser、 xsl等检索词加入检索表达式,从而有效地减少检索结果的命中数,相反,当用户的搜索结果没有时,它又会把和检索词相关的更泛指的词列出来供选择; * 相关排序(Relevance Ranking)和相关反馈(Relevance Feedback)技术对Internet搜索特别重要。一次最普通的检索可能得到成千上万的结果,用户应该首先得到最相关的结果,可惜的是,单纯基于IDF的相关性模型,很难得到理想的结果,应该很好地利用HTML文档的“结构特征”。相关反馈能够根据用户对检索引擎的命中结果的判别执行更加符合用户意图的查询。 3、全文检索技术的发展趋势   全文检索需要超越传统的应用领域,适应无所不在的全文检索的发展趋势。由于软件开发水平的提高和竞争的加剧,自主中文全文检索技术已经达到了较高水平,在传统市场也获得了很高的占有率,但是要在整体上提高中文全文检索系统的水平和可用性,必须在如下几个方面有突破:    * 中文自然语言处理技术,没有领先的中文自然语言处理技术,信息检索就无法在检索效果“质”的方面取得突破; * 系统的可靠性,没有99.99%以上的可靠性,就无法适应一些关键业务的苛刻需求; * 跨平台和多服务器特性,支持Windows 2000、Linux、Unix; * 开放的数据存贮管理机制和符合国际标准的信息检索开发接口; 四、人文社会科学学术网络中的数据库应用   数据库在人文社会科学学术网络中具有极大的应用价值。正如修高速公路一样,网络好比高速公路,路修好后,需要组织生产好的车,才能发挥高速公路的作用。这种车源就是数据库。人文社会科学数据库建设相对于自然科学而言,起步晚。但由于数据库技术的发展日新月异,因此,这种晚起点正好提供了高起点,避免走弯路,迎头赶上数据库发展的最新潮流。      人文社会科学数据库的建设可以分为2步同时走:一是购买现有的数据库和电子数据,二是建设专业性数据库。 1、购买现有的数据库和电子数据   国内人文社会科学数据库建设虽然起步晚,但国外人文社会科学数据库的建设已经有了相当的规模,因此,在人文社会科学学术网络建成后,应该立刻开始对国外现有的人文社会科学数据库的状况进行调查,考虑适当购买国外现有的数据库和电子数据,同时减少印刷类型的国外学术刊物的订购,以避免重复和不必要的浪费。 2、建设专业性数据库   除了购买国外现有的数据库之外,还需进行自有的数据库开发、建设工作。考虑到技术力量有限,可以购买现有的提供符合国际通用标准数据接口的数据库软件,进行数据库建设。      在数据库建设过程中,应该考虑到以下几个因素:    * 选择数据库软件时应该考虑到该软件技术上的成熟性、易操作性和数据转换接口的通用性; * 鉴于因特网已经成为主要的网络环境,因此,数据库软件必须要有良好、稳定的因特网环境支持能力; * 人文社会科学领域对全文资料有特殊的需求,因此,数据库建设过程中,除了具备题录检索能力之外,还需支持全文检索能力,并且具有较好的数据压缩能力; * 数据库建设可以采取先进行试点,再全面铺开的原则进行,避免走弯路; * 数据库建设规模相对集中,避免重复劳动。       第四节 科研工作与信息开发—国际片的经验   曾经有人将网络建设与信息开发形象地比喻为“修路”与“造车”,原因是两者密切相关、相辅相成。前者除了先期的资金投入和后期的管理外,相对容易一些,而后者则相对复杂,除了大量人力物力投入外,牵扯面比较多,如选材、组织、更新等等。中国社会科学院国际片网络中心作为全院网络建设的先行者和试点,通过三年多来的实践,在网络和信息化建设方面积累了一些经验。下面通过国际片的案例分析,分别从网络常识与计算机应用、中文信息开发、外文信息开发三方面,谈谈信息开发如何更好地服务于科研工作。 一、普及网络常识,提高计算机应用水平   国际片由东欧中亚研究所、美国研究所、拉丁美洲研究所、西亚非洲研究所、亚洲太平研究所和日本研究所组成,共有员工近400人。国际片局域网为WINDOWS NT网,通过2台CISCO路由器接入INTERNET,1台MODEM池提供远程访问服务,目前拥有4台服务器,分别用于INTERNET代理及邮件服务、文件服务、数据库服务和内部WWW发布。国际片网络拥有近200台终端,409个局域网用户,392个电子信箱。      网络初建成时,当时国际片六所共有计算机60台,真正上网的只有35台机器。当时的网络承包商北大新天地公司曾分别到国际片六所举办了共计24次专项培训,从Windows 95、Word,一直讲到网络和Internet。但由于国际片各所计算机应用水平不一,个别人对网络甚至有抵触,因此,个别研究所的培训效果也太不理想。 1.网上自助   以往计算机应用的培训,多数为集中灌输式的理论讲座,效果均不十分理想。问题主要有两点:一是受训者之间能力差距过大,教材的难易度无法均衡;二是上机时无法做到一对一式的“场外指导”,难免挂一漏万。记得国际片局域网初建成时,北大新天地公司网络部的技术人员,特为我们网管人员举办了为期两周的专项理论技术培训。由于我们当时都是初次接触Windows NT,培训结业时我们仍然心中没底。经协商,我们特请新天地公司的技术人员滞留一天,由他们做“场外指导”,由我们自己动手,将已经完全安装设置好的两台服务器重新格式化,重装NT,重新设置参数。这一在当时看似荒唐的举动,却对我们后来的网管工作起到了至关重要的作用。那么后来的“场外指导”又是如何解决的呢?上网!因特网上可以找到大量的在线帮助(online help)和常见问题解答(FAQ),我们网管经验就是通过这种模式不断积累,这实际就是“网上自助”模式。      网上自助(Web Enable Self-Service Solutions)的最终目标就是增强和丰富用户的使用经验,当他们遇到困难时,只需在标准的网络浏览器上,通过轻松地点击鼠标,即可检索到可用信息,迅速找到答案。然而,因特网上的“在线帮助”和“常见问题解释”有相当一部分不是针对最终用户的,让普通用户在浩如烟海的因特网上去搜寻、解读行文“苦涩”的“帮助”与“解答”,未免太苛刻他们了。这就需要网管人员对网上的相关信息进行有效地组织和二次开发,我们的目标应该是“让复杂远离桌面”。我们的网上自助就从普及网络知识开始。      首先,将通俗易懂的多媒体教学光盘在网上共享,用户只需用鼠标点击桌面上的快捷方式,即可进入多媒体教室。      伴随用户水平的不断提升,我们以不同方式不失时机地先后推出6本用户手册: (1)《国际片网络概况》(图解文本) (2)《国际片网络及资源概况》(幻灯片) (3)《国际片局域网用户手册》(图解文本) (4)《国际片INTERNET用户手册》(图解及HTML版本) (5)《国际片拨号上网手册》(图解及HTML版本) (6)《国际片所级计算机管理员培训讲议》(图解文本)   上述6本手册,既没有印刷也没有复印,全部共享于网上,它们在不断提供网络利用率的共时,大大减化了我们的网管工作。      如今的网上自助已转移至国际片主页的“最新资料”栏目。该栏目自1998年7月以来已进行过百余次更新,它成为我们网管服务的窗口,也是我们与用户交流的桥梁。 2.“宁静技术”   英年早世的美国施乐公司PaloAlto研究中心计算机高级工程师马克•韦泽(Mark Weiser),早在1988年就提出了ubiquitous computing的概念。美国有人将其称为计算机领域的第三次浪潮,中国有人将其译为“后PC”,韦泽本人将其解释为“虚拟实现的逆向思维”。虚拟实现是将现实生活虚拟进计算机,而ubiquitous computing则是将高技术返朴归真为现实生活。韦泽确信该项技术把未来社会带入“宁静技术”时代。所谓宁静技术(Calm Technology),是让技术无缝地融入我们的生活,而不是让我们时时感受到被技术“压迫”的战栗和恐惧。宁静技术实际上也就前面提到的“让复杂远离桌面”,它达到的应该是一种“润物细无声”的境界。下面我们举两个实例。      美国WordPerfect公司的同名文字处理软件,90年代前一直占据着该领域的霸主地位。90年代初,随着Windows 3.0的推出,微软特别在其Word 6.0的Windows版本中加入了“WordPerfect帮助项”,该项技术使WordPerfect老用户轻松地步入Word行列;反观WordPerfect,在其随后推出的6.0视窗版中,反而令自己的DOS老用户手足无措。这一进一出,WordPerfect将自己的霸主地位拱手想让,再加上经营不善,公司先后被转卖给Novell和Coral。      接下来是我们自身的例子。国际片的主页前后进行过三次改版,在第二次改版中我加入了大量的图片和框架结构,为的是页面的美观和信息含量,结果事与愿违,用户普遍反映,图片影响显示速度,框架结构不利下载。目前我们正在以“美国企业研究所”主页为蓝本,进行第三次改版,该主页虽然没有五颜六色的图片,没有时下流行的多媒体动画,但其结构特别合理,无论你从哪个角度入手,最后都能殊途同归。不失为研究机构主页制作的一个样版。 二、中文信息开发   1996年网络初建成,当时服务器上除了一些共享软件和多媒体教育程序外,可利用的科研信息可以说几乎是空白。根据国际学科研究所的特点,我们从新华社订购了电子版的《参考资料》放在网上共享。所谓电子版《参考资料》,就是相对应于每天的印刷版的《参考资料》中的内容的几十个文本文件。为了方便检索,我们与外单位合作开发了“客户/服务器”方式的检索工具APP,该工具提供按日期排列的标题检索,以及全文阅览和下载,极大地方便了用户的使用。随着改革开放、特别是INTERNET的发展,对外信息交流已经今非昔比,但在国际问题研究领域,新华社的《参考资料》始终占据着不可替代的重要作用。以美国所为例,不足50人的小所,最多时订阅17份《参考资料》。如今网上的电子版《参考资料》相当于人手一册,特别是随着远程拨号访问的开通,用户不出家门就可看到头天最新的《参考资料》。      社科院共有几十种学术刊物,而且有相当一部分被评为该学科领域的核心刊物,倍受各所重视,因为它们是除课题之外直接反映本所研究成果的“门面”。及时将学术刊物上网,不但能加强院内各学科的交流,而且极大地提高其社会影响力。以美国所学术刊物《美国研究》为例,该刊由于保存有自创刊以来的所有文本文件,只是通过少量加工即全文发布在国际片内部WWW网页上,先后两次将其英文提要和全文发布在国外免费网站上,并成功地在中文雅虎、搜狐、新浪等十几家中外搜索引擎上注册,收到了大量国内外的读者来信。      最能体现网络价值的应该是科研信息数据库的开发,目前由各所资料室独立建库,片网负责将其上网。数据库平台软件选择的是国家科委的QUICKMIS,该软件由于是从单机版起家,其网络支撑平台QUICKMIS FOR WEB实际上也运行在WIN95的单机版,这就为QUICKMIS库上网带来了诸多困难,通过长达两个月的技术咨询,终于解决了技术难题,使国际片成为全院唯一实现QUICKMIS联网建库、浏览器检索的局域网。目前各所建库种类大致分为《参考资料学科数据库》、《中文学科论文提要库》、《外文学科论文提要库》和《科研成果库》四类,其中东欧中亚所作为全院试点的四个库已通过验收。现实的问题是,各库的规模都有限,从结构到内容都有相当部分的重复。国际片六所同属国际问题学科,如将各所的数据库合起来搞,无论从工作效率上,还是从库的使用价值上,都将得到事半功倍的效果。 三、外文信息开发   研究工作,特别是国际问题和现实问题的研究工作,大量的信息采集是极其重要的一个环节。以往由于客观条件的限制,我们的研究人员不得不简化这一环节,这使得他们在与国外同行的交往中,经常处于一种尴尬境地。INTERNET的飞速发展,缩小了我们在信息采集方面与国外的差距。      1998年4月院网INTERNET专线开通前,我们作为先行者,已通过拨号上网方式领略INTERNET的风采,当时的第一念头就是,如何把因特网上的最新信息实时的发布了局域网上,并且找到实施这一目标的最佳工具——POINTCAST新闻阅读器。从网上免费下载的POINTCAST是单机版,为了实现其在服务器上的共享,我们前后进行了两周的试验,最后的解决方案也可称作“土法上马”。具体做法是,将本需拷入单机系统目录的3个动态链接库直接拷在服务器相应目录下,使POINTCAST程序与信息同时共享。每天早晨8点,我们通过拨号上网方式,将CNN等十几家著名新闻媒体的实时新闻下载到服务器上,各终端用户直接点击创建在各自桌面上的快捷键,即可收看当日最新国际要闻。1998年4月李铁映院长视察国际片网络机房时,特别观看了该项演示。      90年代中期以来,被称之为“第四大媒体”的INTERNET的迅猛发展超出了所有人的预想。按比尔•盖茨的计算,美国家庭用户拨号上网人数4年增加了5000万,而收音机达到这个数字时用了38年,电视机用了13年。INTERNET与传统媒体相比有四大优势,即传播范围广、选择性多、内容涵盖了前三种媒体、受制约少。正是由于这诸多优势,造成了INTERNET信息的高速膨胀,以至有人惊叫“注意力危机”的到来。      “注意力危机”的提法大概派生于美国理论物理学家迈克尔•戈德哈伯(Michael Goldhaber)的“注意力经济”理论,他的《注意力经济》(Attention Economy)一书即将付梓。戈德哈伯认为,未来经济的核心是注意力而不是信息,得不到受大众注意的信息将失去其价值。据美国Nielsen-NetRatings公司的1999年10月的调查,全球网民上网率及网上逗留时间均开始下降。Nielsen是一家拥有50年经验的电视收视率调查公司,它的抽样对象极具代表性;NetRatings公司具有先进的网络技术和网上调查手段,两家公司于1998年11月开始连手,它们的统计数字有一定权威性。它们还有另一组统计数字,全球2.1亿网民中的68%的访问目标,集中在约4500个网站内。这前后两组数字说明,走马观花者少了,有的放矢者多了。这与我们国际片INTERNET专线开通以来的情况颇为相仿。      国际片INTERNET专线1998年4月开通,上网热一时风靡国际片六所,不坐班的人也天天来办公室上网,甚至包括离退休的老同志。当时,据院网络中心马万宝同志观察,院INTERNET代理服务器的上网记录中,国际片占去一多半,但这种空前的上网热不久就退却了。大家普遍有这样一种感受,如果是走马观花式地浏览,无人不为其“无奇不有、无所有包”而惊叹;当你坐下来认认真真地、有目的性地去寻找某些信息时,感觉就另样了。由于对本学科因特网资源分布情况不熟悉,往往要借助于Yahoo、Excite、Infoseek、Lycos、AltaVista等著名搜索引擎。这些搜索引擎的搜索方式无外乎两大类:分类目录和主题词检索。先说分类目录。与我们的研究领域密切相关的“社会科学”、“国际关系”的类目,恰恰是众多搜索引擎最薄弱的环节。再说主题词检索,如何选择主题词成为一大难点,过于精确了(unique)往往查不到。太泛时,命中目标又太多,经常是成千上万,虽然能够在此基础上二次检索、三次检索,直至找到真正的目标,但那时你往往有一种得不偿失的感觉,远不如去图书馆来得快。这实际上就提出了INTERNET资源二次开发的问题。      上面提到利用图书馆,这里主要指的是各研究所图书馆一类小型专业开架图书馆,通常我们不会去查分类卡片,而是目标明确地浏览自己感兴趣的新书目,翻看一下内容简介和部分章节,真正需要的借回家阅读。我们最先想到的INTERNET资源二次开发,就是要将这一方式移植到因特网上来。      我们率先在全院推出专业领域的《国际问题研究因特网资源指南》。该指南受到了国际片研究人员的欢迎,为解决他们面对茫茫因特网信息之海而不知如何去找到自己需要的研究信息提供了燃眉之急。      然后,我们从国外与国际学科研究相关的1000个网站介绍入手,对该指南进行了补充,并按网站的洲别、国别、性质等进行分类排序。有了它,相当于能在图书馆浏览书目、翻看内容简介。在特定的网站中去检索与去Yahoo中检索,效果就大大不同了。通过我们的指南,从美国众议院网站(http://www.house.gov)检索《考克斯报告》,从美国白宫网站(http://www.whitehouse.gov)检索《总统国情咨文》,都是易如反掌。      此外,我们还利用TELEPORT等下载工具下载主要站点的重要内容,以及国外一些著名期刊杂志的电子版,放在内部网页上共享,类似于网上虚拟阅览室。如《时代周刊》、《新闻周刊》、《经济学家》、《外交季刊》等,这类杂志的电子版不但与其印刷版相差无几,而且提前上网。还可以通过EMAIL有选择地订阅一批电子文献,如英国《经济学家》杂志的《每周商务》和《每周政治》、美国盖洛普公司的《每周民意调查报告》等。考虑到我院目前因特网带宽窄、速度慢,这一步是必须要做的,否则前面提到1000个网站介绍毫无意义。《考克斯报告》第7章由于含图,文件长达11.6兆,如果不将其下载并在国际片局域网上发布,而到网上实时浏览,是根本不可能的。      由于受知识结构所限,INTERNET的二次开发对任何个人来说都是一种奢谈,我们所做的前两步只不过是抛砖引玉之举,目的是让国际片六所的研究人员都来参预此项工作,不断地丰富、完善,最终归入可提供各类检索的数据库,甚至可以将相关学科的主页内容下载,刻成光盘,使之可以像图书一样借阅。      当然,在这里需要申明的是,从网上下载的资料,只是用于内部的科研需要,并不用做商业用途。这里有可能涉及到版权和知识产权问题,但鉴于国内在这方面还没有明确的法律,因此,我们遵循以前内部资料室剪辑报刊杂志中的文章的原则,努力避免版权纠葛。       结 语   本课题在如何将网络技术与科研工作相集合方面做了初步的探索。课题着重探讨3大方面的内容。一是如何将网络技术(特别是与因特网相关的技术)用于人文社会科学研究工作,并为科研工作带来事半功倍的效果。二是如何用好搜索引擎,引导研究人员尽快地、尽可能准确地去在茫茫的因特网大海中获得所需的动态信息。三是如何有组织地从因特网中寻找共用的基础信息,并通过通过数据库的方式进行加工整理,利用全院计算机网络所提供的平台发布给研究人员使用。随后,课题参与人员结合国际片网络的建网经验和实际需求,对国际片网络中心的信息开发工作做了案例分析。总之,通过本课题的研究,试图探索并总结出一条多、快、好、省地获取信息的途径,为全院的科研工作现代化提供一个思路。      开展上述这3方面问题的研究实际上也符合当今网络技术发展的趋势。当前万维网的发展趋势主要表现在:用可靠的及时的信息取代信息垃圾,用完整的全文信息取代索引式的信息,用多维度的信息取代单一维度的信息,用动态的及时更新的信息取代陈旧的静态信息,等等。当然,网络技术的发展也带来了一些值得注意的新问题和新动向,例如怎样认识网上知识产权问题并进行有效保护,怎样认识保密问题并应采取什么样的措施来落实,国家应对因特网上的信息发布采取什么样的政策。这些都需要在今后的研究过程中进一步加以探讨。      在1998年10月,国际片网络中心联合院网络中心一起,曾经举办过一次建网经验交流会。会上,国际片有关人员向与会者介绍了国际片建网以及在网络管理方面的经验,并提出了以学科片网站为中心,组织牵头开发本学科片的数据库的设想。该设想的出发点是,一是能够集中人力,二是避免重复劳动。但鉴于院里已经开始进行6所8库的数据库开发试点工作,这一设想暂时搁浅。      网络技术怎样与科研工作相结合,特别是网络技术怎样为科研工作服务,这在国外的科研领域也是一个全新的课题。加强对这一课题的研究,不仅可以为我院的科研现代化提供一条捷径,而且也可以为信息化和全球化进程做出应有的贡献。本课题只是在这一领域进行了初步的尝试和探索,希望有关这一课题的研究能够作为一个长期进行跟踪研究的内容之一,不断继续下去。
返回列表

中国社科院美国研究所 版权所有@2010 京ICP备05036911号