10元vpsVultr搬瓦工vps主机商建站程序网站教程国外域名IT资讯

robots.txt禁止收录协议写法

时间:2022-10-08  来源:  作者: 我要纠错

什么是robots.txt?
  robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,
如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。

Robots.txt用法:

User-agent:用于指定指令所作用于的目标抓取工具(网络蜘蛛),后接抓取工具名称;

Disallow:指定不允许抓取的目录或网页,后面为空则表示允许抓取一切页面;

Allow:指定允许抓取的目录或网页;

Sitemap:站点地图的位置,必须是绝对路径;

*:表示通配符;

$:表示网址结束;

/:匹配根目录以及任何下级网址。


写robots.txt要注意的地方
      1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
  2. 斜杠:/ 代表整个网站
  3.如果“/”后面多了一个空格,则屏蔽整个网站
  4.不要禁止正常的内容
  5.生效时间是几天到两个月

robots.txt语法

允许所有搜索引擎访问网站的所有部分
robots.txt写法如下:
User-agent: *
Disallow:
或者
User-agent: *
Allow: /

注意: 1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。

禁止所有搜索引擎访问网站的所有部分
robots.txt写法如下:
User-agent: *
Disallow: /

只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
robots.txt写法如下:
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/

注意:路径后面有斜杠和没有斜杠的区别:比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽

屏蔽一个文件夹/templets,但是又能抓取其中一个文件的写法:/templets/main
robots.txt写法如下:
User-agent: *
Disallow: /templets
Allow: /main

禁止访问html/目录下的所有以”.php”为后缀的URL(包含子目录)

robots.txt写法如下:
User-agent: *
Disallow: html/*.php


禁止索引网站中所有的动态页面
比如这里限制的是有“?”的域名,例如index.php?id=1
robots.txt写法如下:
User-agent: *
Disallow: /?

禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)
有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还 可以采取直接屏蔽图片后缀名的方式。
robots.txt写法如下:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$


robots 百度测试工具

打开https://ziyuan.baidu.com/robots/index,在右侧输入网站地址,点击检测,如果在根目录下已放置robots.txt文档,则会在下方显示您的Robots文件已生效。

在域名下输入指定路径进行校验,查看规则是否满足需求
 

robots  google测试工具

https://support.google.com/webmasters/answer/6062598?hl=zh-cqdqq


常见网站robots.txt

https://www.baidu.com/robots.txt
https://tieba.baidu.com/robots.txt
https://www.jd.com/robots.txt
https://www.taobao.com/robots.txt
https://www.zhihu.com/robots.txt
https://www.sogou.com/robots.txt
https://www.aliyun.com/robots.txt
https://cn.bing.com/robots.txt
https://www.google.com/robots.txt

  • 上一篇:宝塔面板网站日志不更新、文件太大解决方法
  • 下一篇:帝国CMS tags伪静态设置教程
  • 无相关信息
    主机资讯
    主机信息
    v.ps
    v.ps
    gcore卢森堡
    gcore卢森堡
    PhpBB
    PhpBB
    DokuWiki
    DokuWiki
    MediaWiki
    MediaWiki
    PmWiki
    PmWiki
    MODX
    MODX
    AbanteCart
    AbanteCart
    推荐信息

    相关文章

    无相关信息

    栏目更新

    Copyright © 2020 ushost.cn Inc. All Rights Reserved. 美国主机中文网 版权所有
    鄂ICP备06013414号-8