您好,欢迎来到调星娱乐。
搜索
您的当前位置:首页新生研讨1

新生研讨1

来源:调星娱乐
中国石油大学(华东)新生研讨课结课(论文)

新生研讨课结课(论文)

题目:搜索引擎的发展状况以及未来的发展趋势

学生姓名:赵湘阳

学 号:1407010422

专业班级:计算机科学与技术14-4班指导教师:

2014年 11月

28

中国石油大学(华东)新生研讨课结课(论文)

题目:搜索引擎的发展状况以及未来的发展趋势

摘 要

搜索引擎包括图片搜索引擎、全文索引、目录索引等,其发展历史可

分为五个阶段,目前企业搜索引擎和网站运营搜索引擎运用范围较广。

在搜索引擎的未来发展中,呈现出个性化,多元化,智能化,移动化,

社区化等多个趋势。

关键词:发展历史;数据库;网站运营;未来发展趋势

中国石油大学(华东)新生研讨课结课(论文)

目录

目录............................................................................................................................................................. 1 第一章 搜索引擎的起源............................................................................................................................ 2

1.1搜索引擎起源时的背景................................................................................................................ 2 1.2世界上第一款搜索引擎Archie .................................................................................................... 2 1.3 Archie出现的意义 ........................................................................................................................ 3 第二章 现代搜索引擎的发展.................................................................................................................... 3

2.1 现代搜索引擎的技术发展........................................................................................................... 3 2.2现今几款主要的搜索引擎的起源以及发展................................................................................ 5

2.2.1雅虎Yahoo ......................................................................................................................... 5 2.2.2 谷歌Google ....................................................................................................................... 5 2.2.3 Openfind ............................................................................................................................. 6 2.2.4百度..................................................................................................................................... 6

第三章 搜索引擎的技术原理.................................................................................................................... 6 第四章 搜索引擎的运营模式.................................................................................................................... 8

4.1早期搜索引擎的运营模式............................................................................................................ 8 4.2现代搜索引擎的运营模式............................................................................................................ 9 第五章 搜索引擎的未来发展趋势............................................................................................................ 9 总结............................................................................................................................................................ 10 参考文献.................................................................................................................................................... 11

1

中国石油大学(华东)新生研讨课结课(论文)

第一章 搜索引擎的起源

1.1搜索引擎起源时的背景

1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索。[1]

1.2世界上第一款搜索引擎Archie

Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。

然而,客观的讲,它并非一个真正的搜索引擎。原因有两个:

一是它只能搜索FTP文件资源,并不能获取诸如网页等其他类型的文件资源,因此它其实是世界上第一个FTP搜索引擎。

二是它没有机器人(Robot)程序,不能象今天的搜索引擎那样快速有效的抓取Internet上的网页文章内容,相反它使用的是一个基于脚本的文件名称收集器,并通过正则表达式来匹配用户查询与文件名称来实现查询,并通过文件列表的方式提供信息查询结果。

2

中国石油大学(华东)新生研讨课结课(论文)

1.3 Archie出现的意义

但是,Archie的出现还是具有重大的意义的,通过Archie使得人们开始认识到搜索引擎这个事物,也为后来真正意义上的搜索引擎的出现指明了方向,同时Archie的出现也为后来搜索引擎的出现以及发展提供了宝贵的经验。所以Archie的出现有着重大的意义。

第二章 现代搜索引擎的发展

2.1 现代搜索引擎的技术发展

1.Excite的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。

2.1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。

3.1995年,一种新的搜索引擎形式出现了——元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的搜索引擎,并从各搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。

第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的

3

中国石油大学(华东)新生研讨课结课(论文)

Metacrawler。元搜索引擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

4.智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。

5.个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果。自2004年10月yahoo推出myweb测试版,到11月a9推出个性化功能,到2005年Googlesearchhistory基本上都沿着一条路子走,分析特定用户的搜索需求限定的范围,然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。另外一种是针对大众化的,Google个性化搜索引擎,或者yahooMindSet,或者我们都知道的前台聚类的vivisimo。但是无论其中的哪一种实现方式,即Google的主动选择搜索范围,还是yahoo,vivisimo的在结果中重新组织自己需要的信息,都是一种实验或者创想,短期内无法成为主流的搜索引擎应用产品。

6.网格技术(great global grid):由于没有统一的信息组织标准对网络信息资源进行加工处理,难以对无序的网络信息资源进行检索、交接和共享乃至深层次的开发利用,形成信息孤岛。网格技术就是要消除信息孤岛实现互联网上所有资源的全面连通。

7.Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程

4

中国石油大学(华东)新生研讨课结课(论文)

序像蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。

1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。

2.2现今几款主要的搜索引擎的起源以及发展

2.2.1雅虎Yahoo

1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。[2]

2.2.2 谷歌Google

1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别

5

中国石油大学(华东)新生研讨课结课(论文)

(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。

2.2.3 Openfind

Openfind ;创立于1998年1月,其技术源自中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。

2.2.4百度

2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布百度搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。

“百度”二字源于中国宋朝词人辛弃疾的《青玉案》诗句:“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

第三章 搜索引擎的技术原理

6

中国石油大学(华东)新生研讨课结课(论文)

第一步:爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。

第二步:抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行。

第三步:预处理

搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

⒈提取文字

⒉中文分词

⒊去停止词

⒋消除噪音(搜索引擎需要识别并消除这些噪声,比如版权声明文字、导航条、广告等……)

7

中国石油大学(华东)新生研讨课结课(论文)

5.正向索引

6.倒排索引

7.链接关系计算

8.特殊文件处理

除了HTML 文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。 但搜索引擎还不能处理图片、视频、Flash 这类非文字内容,也不能执行脚本和程序。

第四步:排名

用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。[3]

第四章 搜索引擎的运营模式

4.1早期搜索引擎的运营模式

在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着2001年互联网泡沫的破灭,大多转向为竞价排名方式。

8

中国石油大学(华东)新生研讨课结课(论文)

4.2现代搜索引擎的运营模式

搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔·格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。

AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同时,Google武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network),YPN ;除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS ;订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。

第五章 搜索引擎的未来发展趋势

未来搜索引擎的动向是:

1、提高信息的查询的精度,提高检索的有效性。

9

中国石油大学(华东)新生研讨课结课(论文)

2、基于智能代理的信息过滤以及个性化服务。

3、采用分布式体系结构提高系统规模和性能。

4、重视交叉语言搜索的研究和开发。

5、注重学术研究方面的补充。

举例如下:

(一)多元化搜索会有不少竞争和成长空间 搜索引擎拂去聪单一的文字、图片搜索,向提供音乐、视频、资讯、软件、文件等多元化 搜索发展,并有进一步的分化趋势。

(二)个性化和针对性搜索 根据用户的搜索习惯和可能从事的行业特点,能够提供更多针对个人的搜索,深度理解个人需要,不但给他们餐馆本身的信息,还给他们地图、驾车路线、餐馆评语等信息。

(三)移动搜索 手机是现代人最有依附性的媒体工具,移动搜索加上一个聪明的智能手机,可以知道你的具体位置,知道你过去做过的许多事情,购买了什么产品,去过什么地方,还有它可以当做你的眼睛和耳朵,甚至你可以用它讲话,可以给你做翻译,方便自己。移动搜索也将是未来搜索竞争最激烈的。[5]

总结

在本篇论文里,我对搜索引擎的的起源发展进行了阐述,对现今几款主流的搜索引擎

1 0

中国石油大学(华东)新生研讨课结课(论文)

进行了介绍,对搜索引擎的运作原理进行了简述,与此同时,我也对搜索引擎未来的技术发展以及运营方式进行了预测。并对搜索引擎的未来发展趋势进行了阐述。

参考文献

[1]肖婷婷.搜索引擎.《华声》.2014.

[2]百度百科.搜索引擎.2008.

http://baike.baidu.com/link?url=4lAUcGlJFkYEycy8tVunvW5pBKuwDT6-03cz9tAMrfP0BnTRfSbAT0TSkdWoKqyraPr4SD1RoWOL_QTbTVXZvK

[3]李晓明..搜索引擎:原理技术与系统.科学出版社.2005.

[4]金涛.信息时代搜索引擎的经营及赢利模式.《电子商务》.2011.

[5]贲国举.以Google看搜索引擎的发展.2012.

11

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- dxga.cn 版权所有 湘ICP备2023023988号-8

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务