欢迎光临
免费的PDF电子书下载网站

搜索引擎——原理、技术与系统(第二版) PDF下载

编辑推荐

 ; ; ; ;李晓明等编著的《搜索引擎——原理技术与系统(第2版)》保留了**版上篇的大部分内容,即搜索引擎的基本原理,过去这么些年并没有什么变化;删除了**版中的第九,第十二和十三章,增加了第十,第十一和十三章,分别介绍基于搜索引擎技术开发并从2002年一直运行至今的“中国web信息博物馆”、“中国数字财富库藏”及开放域问答系统。同时,较大幅度修订了**版中的部分小节内容。本书分三篇共13章,内容包括引论、Web搜索引擎工作原理和体系结构、web信息的搜集、对搜集信息的预处理、信息查询服务等。

 ;

 ; ; ; ;李晓明等编著的《搜索引擎——原理技术与系统(第2版)》保留了**版上篇的大部分内容,即搜索引擎的基本原理,过去这么些年并没有什么变化;删除了**版中的第九,第十二和十三章,增加了第十,第十一和十三章,分别介绍基于搜索引擎技术开发并从2002年一直运行至今的“中国web信息博物馆”、“中国数字财富库藏”及开放域问答系统。同时,较大幅度修订了**版中的部分小节内容。本书分三篇共13章,内容包括引论、Web搜索引擎工作原理和体系结构、web信息的搜集、对搜集信息的预处理、信息查询服务等。

内容简介

搜索引擎:原理、技术与系统(第二版)系统介绍了互联网搜索引擎的工作原理、实现技术及系统构建方案。全书分三篇共13章。上篇介绍搜索引擎的基本原理和技术,讲述一个小型简单搜索引擎实现的具体细节;中篇详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;下篇结合“中国Web信息博物馆”和“中国互联网数字资源财富库藏”的实践经验,介绍了构建大规模Web历史网页和非网页仓储系统的技术和方法,以及中文网页的自动分类与聚类、开放域问题系统的构建等。

搜索引擎:原理、技术与系统(第二版)层次分明,由浅入深,上篇和中篇涉及内容提供了源代码下载地址;既有深入的理论分析,也有大量的实验数据和程序,具有学习和实用双重意义。

搜索引擎:原理、技术与系统(第二版)可作为高等院校计算机科学与技术、软件工程、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料;对广大从事网络技术、Web站点管理、数字图书馆、Web挖掘等研究和应用开发的科技人员有很高的参考价值;书中提供了大量源代码,除了用于构建搜索引擎之外,对于学习编程,提高编程技巧,以及实现一个大规模应用开发也有一定的参考价值。

作者简介

暂无

搜索引擎——原理、技术与系统(第二版) PDF下载

目录

目录
第二版前言
第一版前言
第一章 引论
第一节 搜索引擎的概念
第二节 搜索引擎的发展历史
第三节 一些著名的搜索引擎
第四节 小结
上篇 Web搜索引擎基本原理和技术
第二章 Web搜索引擎工作原理和体系结构
第一节 基本要求
第二节 网页搜集
第三节 预处理
第四节 查询服务
第五节 体系结构
第六节 小结
第三章 Web信息的搜集
第一节 概述
一、超文本传输协议
二、一个小型搜索引擎系统
第二节 网页搜集
一、定义URL类和Page类
二、与服务器建立连接
三、发送请求和接收数据
四、网页信息存储的天网格式
第三节 多道搜集程序并行工作
一、多线程并发工作
二、控制对一个站点并发搜集线程的数目
第四节 如何避免网页的重复搜集
一、记录未访问、已访问URL和网页内容摘要信息
二、域名与IP的对应问题
第五节 搜集信息的类型
第六节 小结
第四章 对搜集信息的预处理
第一节 索引网页库
第二节 网页编码识别
一、基本而重要的概念
二、常用字符编码
三、常用字符编码算法
四、字符的输入和显示
五、编码识别
第三节 中文自动分词
第四节 分析网页和建立倒排文件
第五节 小结
第五章 信息查询服务
第一节 检索的定义
第二节 查询服务的实现
一、结果集合的形成
二、查询结果显示
第三节 小结
中篇 对质量和性能的追求
第六章 可扩展搜集子系统
第一节 天网系统概述和集中式搜集系统结构
一、天网系统结构
二、集中式搜集系统
第二节 利用并行处理技术高效搜集网页的一种方案
一、节点间URL的划分策略
二、关于性能的讨论
三、性能测试和评价
四、系统的动态可配置性设计
第三节 天网分布式搜集系统
第四节 对Deep Web的认识
一、Deep Web的成因
二、搜索Deep Web的方法
第五节 小结
第七章 网页净化与消重
第一节 网页净化与元数据提取
一、DocView模型
二、网页的表示
三、提取DocView模型要素的方法
四、模型应用及实验研究
第二节 网页消重算法
一、消重算法
二、算法评测
第三节 小结
第八章 高性能检索子系统
第一节 检索系统基本技术
一、系统设计与结构
二、索引创建
三、检索过程
第二节 适于查询的网页索引结构
一、倒排索引结构
二、平面位置索引
第三节 倒排索引压缩
一、倒排索引压缩技术
二、词典与倒排表的压缩
第四节 索引剪枝
一、静态索引剪枝方法
二、动态索引剪枝方法
第五节 混合索引技术
一、混合索引的原理
二、混合索引的实现
第六节 倒排文件缓存机制
一、倒排文件缓存
二、负载特性
三、缓存策略的选择
第七节 小结
第九章 相关排序与系统质量评估
第一节 传统IR的相关排序技术
第二节 链接分析与相关排序
一、链接分析
二、Web查询模式下的新信息
第三节 相关排序的一种实现方案
一、形成网页中词项的基本权重
二、利用链接的结构
三、收集用户反馈信息
四、计算最终的权重
第四节 信息检索技术评估
一、信息检索技术评估指标
二、TREC和CWIRF信息检索评估
三、搜索引擎技术评估
第五节 小结
下篇 Web信息资源的组织与应用服务
第十章 大规模Web历史网页仓储系统的构建
第一节 国外Web历史网页保存现状
一、Internet Archive
二、PANDORA
三、其他相关Web保存项目
第二节 中国Web信息博物馆的系统设计
一、Web InfoMall的设计目标
二、Web InfoMall的体系结构
第三节 历史网页的存储
一、数据的组织
二、存储结构
三、数据管理与压缩
四、存储性能
第四节 数据访问
一、PageID的索引
二、URL的索引
三、数据服务
四、性能与优化
第五节 网页的格式保存
第六节 小结
第十一章 大规模Web非网页信息仓储系统的构建
第一节 网络资源库藏相关工作
一、Ibiblio
二、Internet Archive
三、Wikimedia
四、中国互联网数字资源财富库藏
第二节 CDAL系统概况
第三节 CDAL系统设计
一、系统体系结构
二、可扩展的存储组织方案
第四节 网络资源描述信息获取
一、Ontology概述
二、描述信息获取机制
三、改进查询的方法
四、改进排序的方法
第五节 基于局部聚类思想的共现词汇算法
一、基本定义
二、FDC共现词汇算法
第六节 小结
第十二章 中文网页自动分类与聚类
第一节 文档自动分类算法的类型
第二节 实现中文网页自动分类的一般过程
第三节 影响分类器性能的关键因素分析
一、实验设置
二、训练样本
三、特征选取
四、分类算法
五、截尾算法
六、中文网页分类器的设计方案
第四节 天网目录导航服务
一、问题的提出
二、天网目录导航服务的体系结构
三、天网目录的运行实例
第五节 文本聚类方法
一、文本聚类的一般过程
二、文本间相似性的度量
三、常用聚类算法
四、聚类结果的评估
五、搜索引擎返回结果的聚类
第六节 小结
第十三章 开放域问答系统
第一节 概述
一、问答系统的历史
二、著名开放域问答系统介绍
三、开放域问答系统的通用体系结构
第二节 问句的分析
一、问句中的指代消解
二、问句分类
三、问句主题提取
第三节 文档和段落检索
一、检索模型的选用
二、查询生成
三、查询结果排序
四、增强索引的功能
第四节 答案提取和验证模块
一、生成候选答案集合
二、答案提取
第五节 问答系统的改进方法
一、问答系统中外部资源的利用
二、寻找特殊类问题的解决方案
三、通过系综方法构建问答系统
第六节 问答系统的评测
一、TREC问答系统评测
二、问答系统评测指标
第七节 实例:天网开放域问答系统
第八节 小结
参考文献
附录 术语
图目录
图1-1 2012年3月在Google上检索“伊拉克战争”的结果
图1-2 2012年3月在Open Directory上检索“伊拉克战争”的结果
图2-1 搜索引擎示意图
图2-2 搜索引擎三段式工作流程
图2-3 搜索引擎的体系结构
图3-1 TSE搜索引擎界面
图3-2 TSE查询结果页面
图3-3 TSE网页快照页面
图3-4 TSE系统结构
图3-5 Web信息的搜集
图3-6 Sockets和端口
图3-7 通过Socket建立连接
图4-1 网页预处理系统结构
图4-2 原始网页库中的记录格式
图4-3 索引网页库算法
图4-4 字符的输入和显示流程
图4-5 GB2312,Big5和GBK字符编码分布
图4-6 正向减字最大匹配算法流程
图4-7 切词算法流程
图4-8 分析网页与建立倒排文件流程
图4-9 过滤网页中非正文信息算法
图4-10 正向索引表记录格式
图4-11 由正向索引建立反向索引
图5-1 信息查询的系统结构
图5-2 基本检索算法
图5-3 动态摘要算法
图5-4 用户查询日志的记录格式
图6-1 天网系统概貌
图6-2 搜集系统的主控结构
图6-3 协调进程工作算法
图6-4 分布式Web搜集系统结构
图6-5 负载方差
图6-6 并行搜集系统与集中式搜集系统的性能对比
图6-7 分布式系统效率
图6-8 URL两阶段映射
图6-9 天网分布式搜集系统P_Arthur体系结构
图6-10 人才招聘网站首页
图7-1 用DocView模型提取的网页要素
图7-2 净化后的网页
图7-3 HTML Tree结构
图7-4 内容块权值传递过程
图7-5 有主题网页DocView模型生成过程
图7-6 计算网页特征项权值的算法
图7-7 正文段落识别过程
图7-8 基于anchor text的超链选取算法
图7-9 网页净化前后分类效果对比
图7-10 查全率随选取关键词个数的变化
图8-1 检索系统集成框架结构
图8-2 天网WWW检索分布式系统构架
图8-3 倒排索引结构示意图
图8-4 按块组织的倒排链的结构
图8-5 位置索引的结构
图8-6 CLPS结构示意图
图8-7 倒排链中文档号之间的d-gaps分布图
图8-8 不同文档号分配下平均每个查询对应文档号序列的压缩大小
图8-9 不同压缩算法对文档号的解压速度
图8-10 不同文档号分配下平均每个查询对应词频序列的压缩大小
图8-11 不同压缩算法对词频的解压速度
图8-12 平均每个查询对应的位置信息需要的存储空间
图8-13 索引剪枝方法的分类
图8-14 MAXSCORE算法的示例
图8-15 WAND算法选择候选文档的过程
图8-16 基于最大块索引的支点文档号的选择示例
图8-17 Interval-Base剪枝方法中文档子区间划分的示例
图8-18 SAAT方法处理查询处理模式及分数累加器数量的变化
图8-19 当前支持高效SR+IR剪枝的索引结构
图8-20 扩展词典树结构示例
图8-21 扩展词典匹配查找算法
图8-22 搜索引擎检索系统缓存结构
图8-23 文档数据访问对象大小分布
图8-24 I/O与PAGE序列序号-频度分布
图8-25 I/O与PAGE序列时间间隔分布
图8-26 I/O和PAGE序列中唯一模式串
图9-1 Inktomi提供的几种搜索引擎技术的比较
图9-2 词典在系统中的地位
图9-3 新词学习
图9-4 网页的互联结构示意
图9-5 信息获取技术评估的“森林”
图9-6 查准率和召回率基础定义图示
图9-7 查准率和召回率例子
图9-8 “省事的”11点标准召回率例子
图9-9 实践中召回率例子
图9-10 实际中的44个查询词的评价统计表和P-R图
图9-11 测试集在检索评估中的角色
图9-12 帮助判断相关结果页面的计算机辅助程序入口
图9-13 帮助判断相关结果页面的计算机辅助程序操作界面
图10-1 Web InfoMall体系结构
图10-2 网页数据的分割
图10-3 Web InfoMall的存储结构
图10-4 网页的引用压缩示意图
图11-1 CDAL提供的资源访问方式
图11-2 CDAL系统结构图
图11-3 基于Ontology的网络资源描述信息获取
图11-4 概念的属性及其词汇扩展(以电影类资源为例)
图11-5 获得描述信息的改进排序算法
图11-6 网络资源描述信息展示
图12-1 自动文档分类算法的分类
图12-2 中文网页自动分类的一般过程
图12-3 中文网页分类器的工作原理图
图12-4 WebSmart——一个网页实例集搜集和整理工具
图12-5 一种中文网页的分类体系
图12-6 Macro-F1值随样本数的变化
图12-7 Micro-F1值随样本数的变化
图12-8 CHI、IG、DF、MI的比较(Macro-F1)
图12-9 CHI、IG、DF、MI的比较(Micro-F1)
图12-10 kNN与NB分类结果的比较
图12-11 k的取值对分类器质量的影响(Marco-F1)
图12-12 k的取值对分类器质量的影响(Micro-F1)
图12-13 兰式距离法与欧式距离法对12个不同类别的分类情况
图12-14 基于层次模型的kNN与基本kNN的比较
图12-15 RCut和SCut截尾算法的比较
图12-16 天网目录的体系结构
图12-17 天网目录导航服务
图12-18 文本聚类的一般过程
图12-19 层次聚类实例
图12-20 k-均值算法进行文本聚类的过程
图12-21 搜索结果聚类系统Carrot2
图13-1 START系统界面
图13-2 Ask Jeeves查询结果
图13-3 问答系统的通用体系结构
图13-4 天网开放域系统的体系结构
表目录
表4-1 网页索引文件
表4-2 URL索引文件
表6-1 SOIF数据描述
表6-2 SOIF具体语法
表6-3 参照序列,假设节点数为2
表7-1 类别编号对照表
表7-2 消重实验结果
表7-3 当N=10、δ=0.01时5种算法的查全率和准确率
表7-4 考察δ的取值对算法3和4的影响
表7-5 分段签名算法的时间复杂度及性能
表7-6 基于关键词的各算法的时间复杂度及性能(N=10,δ=0.01)
表8-1 MTF对序列<;4,4,1,4,2>;进行转换的过程
表8-2 对包含100万词条的词典使用不同编码所需要的空间
表8-3 平均每个查询对应词频链的空间大小(文档号按URL序分配)
表8-4 不同索引的组织结构及其支持的查询处理方式
表8-5 数据集基本统计信息
表9-1 新词学习对检索准确率的影响
表9-2 影响权值的HTML标签
表9-3 补偿因子定义表
表9-4 2004中文Web信息检索评测提交结果
表9-5 主题提取
表9-6 导航搜索
表9-7 用户查询信息类别
表10-1 网页存储性能(个/秒)
表10-2 网页访问性能(个/秒)
表11-1 几个网络资源库藏系统的特征
表11-2 CDAL中的资源分布
表12-1 样本集中类别及实例数量的分布情况表
表12-2 kNN和NB算法的分类质量和分类效率比较
表12-3 欧式距离与兰式距离的比较
表12-4 基于层次模型的kNN与基本kNN的比较
表12-5 RCut和SCut截尾算法的比较
表12-6 一个分类器的设计方案
表13-1 问题分类体系结构及TREC问答任务中问题的分布
表13-2 天网开放域系统在TREC2005中的表现

免费在线读

第一章 引  论
信息的生产、传播、搜集与查询是人类最基本的活动之一。考虑以文字为载体的信息,传统上有图书馆、相应的编目体系和专业人员帮助我们很快找到所需的信息,其粒度通常是“书”或者“文章” 。随着计算机与信息技术的发展,有了信息检索(in-formation retrieval ,IR)学科领域,有了关于图书或者文献的全文检索系统,使我们能很方便地在“关键词”的粒度上得到相关的信息。
我们注意到,上述全文检索系统一般工作在一个规模相对有限、内容相对稳定的馆藏(collection)上,被检索的对象通常是经过认真筛选和预先处理的(如人工提取出了“作者” 、“标题”等元数据,形成了很好的“摘要”等) ,并且系统需要同时响应的查询数量通常都不会太大(如每秒钟10 个左右) 。
1994 年左右,万维网( World Wide Web ,简记为WWW 或Web)出现。它的开放性(openness)和其上信息广泛的可访问性(accessibility)极大地鼓励了人们创作的积极性。作为一个信息源,Web 和上述全文检索系统的工作对象相比,具有许多不同的特征,它们给信息检索领域带来了新的发展机遇和技术挑战。
规模大。在短短的10 年左右时间,人类至少生产了40 亿网页(Google  2004) ,而人类有文字以来上万年里产生了大约1 亿本书;中国网上到2004 年初大致有了约3亿网页(天网 2004) ,而中华民族有史以来出版的书籍大约不过275 万种。尽管书籍的容量和质量是一般网页不可比的,但在对应的时间背景上考察其文字的总体数量,我们不能不为人类在Web 上创造文字的激情惊叹!
内容不稳定。除了不断有新的网页出现外,旧的网页也可能会因为各种原因被删除( 有研究指出:50 % 网页的平均生命周期大约为50 天( Cho et al.2000 ,Cho  2002)) 。
从原则上讲,读者数和作者数在同一个量级,形式和内容的随意性很强,权威性相对也不高,也不太可能进行人工筛选和预处理。
与生俱来的数字化、网络化。传统载体上的信息,人们目前正忙于将它们数字化、上网(花费极高) ,而网络信息天生如此。这个特性是一把双刃剑:一方面便于我们搜集和处理,另一方面也会使我们感到太多,蜂拥而至、鱼目混珠。
而作为要在Web 上提供服务的信息查询系统,如搜索引擎和数字图书馆,通常要具备同时对付大量访问的能力(如每秒钟1000 个查询) ,而且响应时间还要足够的快(如1 秒钟) 。
本书旨在介绍构建这类搜索引擎的有关技术。传统的IR 是其基础,同时本书也充分讨论了由上述Web 信息的特征所带来的新问题及其解决方案。
第一节 搜索引擎的概念
搜索引擎,在本书指的是一种在Web 上应用的软件系统,它以一定的策略在Web 上搜集和发现信息,这些信息集合对应于Web 上一段时间内(如一周或两周)搜集的网页。对Web 上更长时间段(如10 年)网页的搜集和整理,我们在下篇介绍。
在对信息进行处理和组织后,为用户提供Web 信息查询服务。从使用者的角度看,这种软件系统提供一个网页界面,通过浏览器提交一个词语或者短语,可以很快返回一个可能和用户输入内容相关的信息列表(常常会是很长一个列表,如包含1 万个条目) 。这个列表中的每一条目代表一篇网页,每个条目至少有三个元素:
1) 标题:以某种方式得到的网页内容的标题。最简单的方式就是从网页的< TITLE > < / TITLE > 标签中提取的内容(尽管在一些情况下并不真正反映网页的内容) 。本书第七章会介绍其他形成“标题”的方法。
2) URL :该网页对应的“访问地址” 。有经验的Web 用户常常可以通过这个元素对网页内容的权威性进行判断,例如,http :// www .people .com 上面的内容通常就比http ://notresponsible .net(某个假想的个人网站)上的要更权威些(不排除后者上的内容更有趣些) 。
3) 摘要:以某种方式得到的网页内容的摘要。最简单的一种方式就是将网页内容的头若干字节(如前512 字节)截取下来作为摘要。本书第七章会介绍形成“摘要”
的其他方法。
通过浏览这些元素,用户对相应的网页是否真正包含他所需的信息进行判断。
比较肯定的话则可以点击上述URL ,从而得到该网页的全文。图1-1 是2012 年3月15 日在Google 搜索引擎(http ://www .google .com .hk/)上的一个例子,用户提交了查询词“伊拉克战争” ,系统返回一个相关信息列表。列表的每一条目所含内容比上述要丰富些,但核心还是那三个元素。
这个例子提示了我们一个重要的情况,即搜索引擎提供信息查询服务的时候,它面对的只是查询词。而有不同背景的人可能提交相同的查询词,关心的是和这个查询词相关的不同方面的信息,但搜索引擎通常是不知道用户背景的,因此搜索引擎既要争取不漏掉任何相关的信息,还要争取将那些“最可能被关心”的信息排在列表的前面。这也就是对搜索引擎的根本要求。除此以外,考虑到搜索引擎的应用环境是Web ,因此对大量并发用户查询的响应性能也是一个不能忽略的方面。
作为对搜索引擎工作原理的基本了解,这里有两个问题需要首先澄清。第一,当用户提交查询的时候,搜索引擎并不是即刻在Web 上“搜索”一通,发现那些相关的网页,形成列表呈现给用户;而是事先已“搜集”了一批网页,以某种方式存放在系统中,此时的搜索只是在系统内部进行而已。第二,当用户感到返回结果列表中的某一项很可能是他需要的,从而点击URL ,获得网页全文的时候,他此时访问的则是网页的原始出处。因此,从理论上讲搜索引擎并不保证用户在返回结果列表上看到的标题和摘要内容与他点击URL 所看到的内容一致(上面那个“伊拉克战争”的例子就是如此) ,甚至不保证那个网页还存在。这也是搜索引擎和传统信息检索系统的一个重要区别。这种区别源于前述Web 信息的基本特征。为了弥补这个差别,现代搜索引擎都保存网页搜集过程中得到的网页全文,并在返回结果列表中提供“网页快照”或“历史网页”链接,保证让用户能看到和摘要信息一致的内容。
第二节 搜索引擎的发展历史
早在Web 出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。
那些资源当时主要存在于各种允许匿名访问的FTP 站点(anonymous FTP) ,内容以学术技术报告、研究性软件居多,它们以计算机文件的形式存在,文字材料的编码通常是PostScript 或者纯文本(那时还没有H TML) 。
为了便于人们在分散的FTP 资源中找到所需的东西,1990 年加拿大麦吉尔大学( University of McGill)计算机学院的师生开发了一个软件,Archie 。它通过定期搜集并分析FTP 系统中存在的文件名信息,提供查找分布在各个FTP 主机中文件的服务。Archie 能在只知道文件名的前提下,为用户找到这个文件所在的FTP 服务器的地址。Archie 实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。该数据库中包括大量可通过FTP 下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。尽管所提供服务的信息资源对象(非H TML 文件)和本书所讨论搜索引擎的信息资源对象( H TML网页)不一样,但基本工作方式是相同的(自动搜集分布在广域网上的信息,建立索引,提供检索服务) ,因此人们公认Archie 为现代搜索引擎的鼻祖。 以FTP 文件为对象的信息检索服务技术在2000 年左右是比较流行的,尤其是在用户使用界面上充分采用了Web 风格,北大天网文件检索系统就是一个例子。随着P2P 文件共享系统的流行,更多的用户搜索文件开始使用P2P 客户端,FTP 搜索逐渐淡出。近年来,随着智能手机和平板电脑的流行,搜索已经不限于在电脑上完成,而且有些应用天生适合移动设备的小屏幕,如微博、微信和飞信等;搜索的技术更多地在不同的领域得到应用,如淘宝网(http ://www .taobao .com/)中提供的检索、推荐和过滤功能;搜索的对象也不限于网页和文件,如微博、评论、标签、视频、音频、事件和图片等。鉴于本书写作定位的关系,后面将主要讨论网页搜索引擎的相关问题。
以Web 网页为对象的搜索引擎和以FTP 文件为对象的检索系统一个基本的不同点在于搜集信息的过程。前者是利用HTML 文档之间的链接关系,在Web 上一个网页一个网页地“爬取”(crawl) ,将那些网页“抓”(fetch)到本地后进行分析;后者则是根据已有的关于FTP 站点地址的知识(如得到了一个站点地址列表) ,对那些站点进行访问,获得其文件目录信息,并不真正将那些文件下载到系统上来。因此,如何在Web 上“爬取” ,就是搜索引擎要解决的一个基本问题。在这方面,1993 年Mat-thew Gray 开发了World Wide Web Wanderer ,它是世界上第一个利用H TML 网页之间的链接关系来监测Web 发展规模的“机器人”(robot)程序。刚开始时它只用来统计互联网上的服务器数量,后来则发展为能够通过它检索网站域名。鉴于其在Web 上沿超链“爬行”的工作方式,这种程序有时也称为“蜘蛛”(spider) 。因此,在文献中crawler 、spider 、robot 一般都指的是相同的事物,即在Web 上依照网页之间的超链关系一个个抓取网页的程序,通常也称为“搜集” 。在搜索引擎系统中,也称为网页搜集子系统。
现代搜索引擎的思路源于Wanderer ,不少人在Matthew Gray 工作的基础上对它的蜘蛛程序做了改进。1994 年7 月,Michael Mauldin 将John Leavitt 的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos ,成为第一个现代意义的搜索引擎。在那之后,随着Web 上信息的爆炸性增长,搜索引擎的应用价值也越来越高,不断有更新、更强的搜索引擎系统推出。这其中,特别引人注目的是Google ,虽然是个姗姗来迟者(1998 年才推出) ,但由于其采用了独特的PageRank 技术,使它很快后来居上,成为当前全球最受欢迎的搜索引擎(作者2003 年初访问印度,就听到总统阿卜杜勒? 卡拉姆讲他经常用Google 在网上查找信息) 。
在中国,据我们所知,对搜索引擎的研究起源于“中国教育科研网”(CERNET)一期工程中的子项目,北京大学计算机系的项目组在陈葆珏教授的主持下于1997 年10 月在CERNET 上推出了天网搜索1 .0 版本。该系统在这几年里不断发展,目前已成为中国最大的公益性搜索引擎(http ://e .pku .edu .cn) 。在这之后,几位在美国留学的华人学者回国创业,成立了百度公司,于2000 年推出了“百度”商业搜索引擎(http ://www .baidu .com) ,并一直处于国内搜索引擎的领先地位。我们看到搜狐公司也在中国推出了一个大规模搜索引擎(http :// www .sogou .com) ,用起来感觉也不错,但往后发展如何,还有待时间的考验。
当我们谈及搜索引擎的时候,不应该忽略另外一个几乎是同期发展出来的事物:基于目录的信息服务网站。1994 年4 月,斯坦福(Stanford)大学的两名博士生,Da-vid Filo 和杨致远(Gerry Yang)共同创办了Yahoo ! 门户网站,并成功地使网络信息搜索的概念深入人心。1996 年中国出现了类似的网站,“搜狐”(http ://www .sohu .com) 。在许多场合,也称Yahoo ! 之类的门户网站提供的信息查找功能为搜索引擎。但从技术上讲,这样的门户中提供的搜索服务和前述搜索引擎是很不同的。而且目前这类门户网站通常采用两种方式的结合来提供服务,即人工编辑结合自动搜索。这样的门户依赖的是人工整理的网站分类目录,一方面,用户可以直接沿着目录导航,定位到他所关心的信息;另一方面,用户也可以提交查询词,让系统将他直接引导到和该查询词最匹配的网站。图1-2 就是我们在Open Directory Project(http ://www .dmoz .org/)上查询“伊拉克战争”的结果。一般来讲,前者的信息搜索会更全面些,后者则会准确些。在没有特殊说明的情况下,本书中所讨论的“搜索引擎”不包括Yahoo ! 和搜狐这样的搜索方式。
随着网上信息越来越多,单纯靠人工整理网站目录取得较高精度查询结果的优势逐渐退化――对海量的信息进行高质量的人工分类已经不太现实。目前有两个发展方向。一是利用文本自动分类技术,在搜索引擎上提供对每篇网页的自动分类,这方面最先看到的例子是Google 的“网页分类”选项,但它分类的对象只是英文网页。
在中文方面,文本自动分类的研究工作有很多,但我们知道的第一个在网上提供较大规模网页自动分类服务的是北大网络实验室冯是聪和龚笔宏等人的工作(冯是聪 2003) ,他们于2002 年10 月在天网搜索上挂接了一个300 万网页的分类目录。另一个发展方向是将自动网页爬取和一定的人工分类目录相结合,希望形成一个既有高信息覆盖率,也有高查询准确性的服务。
互联网上信息量在不断增加,信息的种类也在不断增加。例如,除了我们前面提到的网页和文件,还有微博、论坛、专业数据库等。同时上网的人数也在不断增加,网民的成分也在发生变化。一个搜索引擎要覆盖所有的网上信息查找需求已出现困难,因此各种主题搜索引擎、个性化搜索引擎、问答式搜索引擎等纷纷兴起。这些搜索引擎虽然还没有实现如通用搜索引擎那样的大规模应用,但随着互联网的发展,我们相信它们的生命力会越来越旺盛。另外,即使通用搜索引擎的运行现在也开始出现分工协作,有了专业的搜索引擎技术和搜索数据库服务提供商。如美国的Inkto-mi ,它本身并不是直接面向用户的搜索引擎,但向包括Overture (原GoTo) 、LookSmart 、MSN 、HotBot 等在内的其他搜索引擎提供全文网页搜集服务。从这个意义上说,它是搜索引擎数据的来源。
搜索引擎出现虽然只有20 年左右的历史,但在Web 上已经有了确定不移的地位。据CNNIC 统计,它已经成为继电子邮件之后的第二大Web 应用。虽然它的基本工作原理已经相当稳定,但在其质量、性能和服务方式等方面的提高空间依然很大,研究成果层出不穷,是每年WWW 学术年会① 的重要论题之一。
第三节 一些著名的搜索引擎
为了让感兴趣的读者有目的地试一试,我们整理了一些当前主流的搜索引擎,包括网址、首页面图片及其介绍。这些搜索引擎提供多语言的支持,可以满足不同母语读者的需求。

搜索引擎——原理、技术与系统(第二版) pdf下载声明

本pdf资料下载仅供个人学习和研究使用,不能用于商业用途,请在下载后24小时内删除。如果喜欢,请购买正版

pdf下载地址

版权归出版社和作者所有,下载链接已删除。如果喜欢,请购买正版!

链接地址:搜索引擎——原理、技术与系统(第二版)