当前位置:首页 科普知识 google机器人

google机器人

发布时间:2023-09-07 23:23:54

google机器人是Google 的web 抓取漫游器。它从web上收集文档,为Google搜索引擎建立可搜索的索引。 Googlebot是google的机器人的意思,俗称google爬虫。

google机器人详细介绍

google机器人是Google 的web 抓取漫游器。它从web上收集文档,为Google搜索引擎建立可搜索的索引。 Googlebot是google的机器人的意思,俗称google爬虫。

google机器人

google机器人好处

把火狐伪装成爬虫有什么好处呢?对经常光顾verycd的朋友们非常有用。可以免登录看贴。首先我们用火狐测试一下:打开这里是不是要求你登录?

继续,设置方法,打开火狐,Ctrl+T新建一个浏览标签,输入:about:config,打开配置页面,右键点击页面选择“新建→字符串”,在弹出的窗口中输入:general.useragent.override,确定之后,输入:Googlebot/2.1 (+http://www.googlebot.com/bot.html),继续确定,关闭窗口。

google机器人

其实上次Matt所透露的仅仅是其中一方面的内容。今天,Matt再次写了一篇非常详细的文章,解释了Google的各种bot是怎样抓取网页的,以及Google最新的BigDaddy在抓取网页方面有什么新的变化等等,内容非常的精彩,所以和大家分享一下。

google机器人

首先要介绍的是Google的"crawl caching proxy"(爬行缓存代理)。Matt举了一个ISP与用户的例子来说明它。用户上网时,总是先通过ISP获取网页内容,然后ISP就会把用户访问过的网页缓存起来备用。比如说,当用户A访问了www.kenwong.cn,那么中国电信(或网通等)就会把"幻灭的麦克风"发送给用户A,然后将"幻灭的麦克风"缓存起来,当用户B在下一秒钟里再访问www.kenwong.cn,那么中国电信就会把缓存里的"幻灭的麦克风"发送给用户B,这样就能节省了带宽。

正如本站之前所报道的那样,Google最新的软件层面的升级(转移至BigDaddy)已经接近完成,因此升级后的Google各方面的能力都将得到加强。这些加强包括了更智能化的googlebot爬行、改良的规范性以及更好的收录网页能力。而在Googlebot爬行抓取网页方面,Google也采取了节省带宽的方法。Googlebot也随着BigDaddy的升级而得到了升级。新的Googlebot已经正式支持了gzip编码,所以如果你的网站开启了gzip编码功能,那么就能节省Googlebot爬行你的网页时所占的带宽。

除了改良的Googlebot外,升级后的Google将会采用上面所说到的crawl caching proxy来抓取网页,以进一步节省带宽。下面是一个示意图,显示了传统的Googlebot是怎样爬行一个网站的:

google机器人拒绝资助

2014年3月28日,虽然美国国防部高等研究计划署曾经是人形机器人的主要资助机构,但谷歌旗下Google X实验室却拒绝了该机构的资金。

温馨提示:
本文【google机器人】由作者 爱百科 转载提供。 该文观点仅代表作者本人, 自学教育网 信息发布平台,仅提供信息存储空间服务, 若存在侵权问题,请及时联系管理员或作者进行删除。
(c)2008-2025 自学教育网 All Rights Reserved 汕头市灵创科技有限公司
粤ICP备2024240640号-6