第八节:robots.txt功能介绍及讲解

2015-10-21 14:13:34
第一课程网
1kecheng.com
摘要:大多数人一定知道robots.txt是什么。
这里再详细介绍下:
搜索引擎用来爬取网页内容的工具我们称之为搜索引擎机器人。
搜索引擎机器人每次来到要抓取的网站,都会先访问

大多数人一定知道robots.txt是什么。vrZ站长课程_免费SEO教程_第一课程网_渴成网

这里再详细介绍下:vrZ站长课程_免费SEO教程_第一课程网_渴成网

搜索引擎用来爬取网页内容的工具我们称之为搜索引擎机器人。vrZ站长课程_免费SEO教程_第一课程网_渴成网

搜索引擎机器人每次来到要抓取的网站,都会先访问这个网站根目录下的一个文件(robots.txt),如果不存在该文件,则搜索引擎机器人默认这个网站允许其全部抓取。vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

robots.txt是一个简单的纯文本文件(记事本文件),搜索引擎机器人通过robots.txt里的“说明”,理解该网站是否可以全部抓取或部分抓取。vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

如果你希望搜索引擎收录你网站的全部网页,则你可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根目录。vrZ站长课程_免费SEO教程_第一课程网_渴成网

上传你的robots.txt后,通过 你的域名/robots.txt 可以正常访问。 注意,robots.txt的命名,都应该是小写。vrZ站长课程_免费SEO教程_第一课程网_渴成网

访问如:web.1kecheng.com/robots.txtvrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

robots.txt文件的内容主要就是一个代码:Disallow:vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

注意,robots.txt文件中一般要包含至少一个Disallow:  vrZ站长课程_免费SEO教程_第一课程网_渴成网

如果都允许收录,你可以写一行Disallow:/search.html   这个文件(search.html)本来就不存在也没事。vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

格式如:vrZ站长课程_免费SEO教程_第一课程网_渴成网

User-agent: *vrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /search.htmlvrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /index.php?vrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /tempweb/vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

说明:vrZ站长课程_免费SEO教程_第一课程网_渴成网

User-agent: *   这里说明本Robots.txt针对哪一个搜索引擎蜘蛛而言,星号代表针对所有搜索引擎蜘蛛,包括百度、google、yahoo等。vrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /search.html  说明不允许收录 /search.html 这个文件。vrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /index.php?  说明不允许收录以index.php?为前缀的链接如:index.php?122.html、index.php?=12、index.php?/baidu等等vrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /tempweb/  说明不允许收录/tempweb/里的所有文件。但可以收录如:/tempwebtaim.html 的链接。vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /*-*      屏蔽全站url内带有 - 的链接vrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /*?*      屏蔽全站url内带有 ?  的连接vrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /*html?*      屏蔽全站url内带有 html?  的连接vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

这里介绍的是常用的几个代码。vrZ站长课程_免费SEO教程_第一课程网_渴成网

如果需要了解更多关于Disallow:的用法,请了解百度官方的介绍:http://www.baidu.com/search/robots.htmlvrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

通过robots.txt来删除被收录的内容vrZ站长课程_免费SEO教程_第一课程网_渴成网

1、当你的网页已被收录,但想用robots.txt删除掉,一般需要1-2个月。vrZ站长课程_免费SEO教程_第一课程网_渴成网

2、结合Google网站管理员工具,你可以马上删除被Google收录的网页。vrZ站长课程_免费SEO教程_第一课程网_渴成网

3、结合百度的站长平台,通过这里可以尽快删除被百度收录的页面:http://zhanzhang.baidu.com/feedbackvrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

使用Robots.txt遵循这么几个原则:vrZ站长课程_免费SEO教程_第一课程网_渴成网

1、不要屏蔽首页的后缀,比如:index.php,index.html 等;vrZ站长课程_免费SEO教程_第一课程网_渴成网

2、不要写太多带星号的,尽量简洁一些,我们看百度和Google的robtos.txt带星号的写法几乎没有,太多带星号的,就可能存在误伤;vrZ站长课程_免费SEO教程_第一课程网_渴成网

3、不用什么都屏蔽,某些页面即使被收录了也不影响什么的,就建议可以不用屏蔽。vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

相关问题:vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

1、我发现有一个网站被K了,但它加了我的网站链接,我可以把它屏蔽吗?vrZ站长课程_免费SEO教程_第一课程网_渴成网

被K的网站加你网站的链接,对你网站是没有太大影响的。通过robots.txt也没有办法屏蔽外部链接。vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

2、我的首页是index.html,我可以把index.php屏蔽吗?vrZ站长课程_免费SEO教程_第一课程网_渴成网

为了安全起见,请不要屏蔽,因为index.html 才是真实存在的首页。不屏蔽是一定没事,但屏蔽了,可能存在隐患。vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

3、我不喜欢我网站的后台登陆地址被搜索引擎收录,同时也不希望放在robots.txt里被其他人知道。我怎么来屏蔽呢?vrZ站长课程_免费SEO教程_第一课程网_渴成网

这个确实是一个问题,我们想到一个解决办法是这样:vrZ站长课程_免费SEO教程_第一课程网_渴成网

比如:你的网站后台是/wp-admin.php    那么你在robtos.txt里只要写上vrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /wp-admi     这样的写法,就屏蔽了 /wp-admi  之后所有的url方式。vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

4、如果我只是具体某一个页面不希望被收录,怎么办?vrZ站长课程_免费SEO教程_第一课程网_渴成网

在这个robtos.txt里直接屏蔽这个页面的URL就可以。vrZ站长课程_免费SEO教程_第一课程网_渴成网

如:Disallow: /123/nourl.htmlvrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

5、有什么注意的经验?vrZ站长课程_免费SEO教程_第一课程网_渴成网

1、我们看到一些同学,在robots.txt里屏蔽了首页文件。比如:index.html、index.php、Default.php,原因是,他的首页可能是index.asp,但通过以上这几个也能访问首页,于是,他就想屏蔽了他们。这样的做法是不对的。首页,尽量都不要屏蔽。vrZ站长课程_免费SEO教程_第一课程网_渴成网

2、如果网站上存在一些比较大的文件、比如:打包文件、大图片文件、音乐文件、或电影文件、日志文件夹等等,可以屏蔽掉,因为这些文件可能让你的流量过大,占用过多宽带。具体例子就是SEOWQ的robots.txt:www.seowhy.com/robots.txtvrZ站长课程_免费SEO教程_第一课程网_渴成网

这里有一个vrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /e/update/   因为1kecheng有些大文件放在update里,通过这个方式,就可以避免文件被收录,从而节省流量和带宽。vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

6、举个例子说明robots.txt的作用和做法vrZ站长课程_免费SEO教程_第一课程网_渴成网

格式如:vrZ站长课程_免费SEO教程_第一课程网_渴成网

Disallow: /bbs/redirect.php?fid=vrZ站长课程_免费SEO教程_第一课程网_渴成网

作用:屏蔽“上一页”“下一页”URLvrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

7、用工具判断自己设置的robots.txt 有没语法错误vrZ站长课程_免费SEO教程_第一课程网_渴成网

地址:http://zhanzhang.baidu.com/robots/indexvrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

8、我想屏蔽某一个二级域名,如何屏蔽?vrZ站长课程_免费SEO教程_第一课程网_渴成网

新建一个robots.txt文件,里面是屏蔽全站的代码(Disallow: /),然后上传到二级域名的根目录下,让通过 xx.yuming.com/robots.txt 可以访问到。vrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

9、但为什么SEOWQ的robots.txt那么复杂?vrZ站长课程_免费SEO教程_第一课程网_渴成网

作为未来的SEO精英,你需要深入了解并充分利用robots.txt。vrZ站长课程_免费SEO教程_第一课程网_渴成网

请在从这里了解:http://web.1kecheng.com/html/84.htmlvrZ站长课程_免费SEO教程_第一课程网_渴成网

vrZ站长课程_免费SEO教程_第一课程网_渴成网

10、robots.txt里是否可以放sitemap地址?vrZ站长课程_免费SEO教程_第一课程网_渴成网

可以。可以把网站sitemap地址放在robots.txt里,方便搜索引擎抓取。放的方式类似:www.google.com/robots.txtvrZ站长课程_免费SEO教程_第一课程网_渴成网

 

发表评论 共有条评论
联系我们
站长课程: web.1kecheng.com
站长工具: tool.1kecheng.com
手工小制作: diy.1kecheng.com
Email: firstkecheng@163.com
微信: 第一课程网
我们的宗旨: 用心整理每一篇文章,为渴望成功人士提供最准确最简单的帮助。