Vultr搬瓦工vps国外域名网站教程IT资讯主机商

robots.txt禁止收录协议写法

时间:2022-10-08  来源:  作者: 我要纠错

什么是robots.txt?
  robots.txt 是网站和搜索引擎的协议的纯文本文件。当一个搜索引擎蜘蛛来访问站点时,它首先爬行来检查该站点根目录下是否存在robots.txt,
如果存在,根据文件内容来确定访问范围,如果没有,蜘蛛就沿着链接抓取。robots.txt 放在项目的根目录下。

Robots.txt用法:

User-agent:用于指定指令所作用于的目标抓取工具(网络蜘蛛),后接抓取工具名称;

Disallow:指定不允许抓取的目录或网页,后面为空则表示允许抓取一切页面;

Allow:指定允许抓取的目录或网页;

Sitemap:站点地图的位置,必须是绝对路径;

*:表示通配符;

$:表示网址结束;

/:匹配根目录以及任何下级网址。


写robots.txt要注意的地方
      1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。
  2. 斜杠:/ 代表整个网站
  3.如果“/”后面多了一个空格,则屏蔽整个网站
  4.不要禁止正常的内容
  5.生效时间是几天到两个月

robots.txt语法

允许所有搜索引擎访问网站的所有部分
robots.txt写法如下:
User-agent: *
Disallow:
或者
User-agent: *
Allow: /

注意: 1. 第一个英文要大写,冒号是英文状态下,冒号后面有一个空格,这几点一定不能写错。

禁止所有搜索引擎访问网站的所有部分
robots.txt写法如下:
User-agent: *
Disallow: /

只需要禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引
robots.txt写法如下:
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/

注意:路径后面有斜杠和没有斜杠的区别:比如Disallow: /images/ 有斜杠是禁止抓取images整个文件夹,Disallow: /images 没有斜杠意思是凡是路径里面有/images关键词的都会被屏蔽

屏蔽一个文件夹/templets,但是又能抓取其中一个文件的写法:/templets/main
robots.txt写法如下:
User-agent: *
Disallow: /templets
Allow: /main

禁止访问html/目录下的所有以”.php”为后缀的URL(包含子目录)

robots.txt写法如下:
User-agent: *
Disallow: html/*.php


禁止索引网站中所有的动态页面
比如这里限制的是有“?”的域名,例如index.php?id=1
robots.txt写法如下:
User-agent: *
Disallow: /?

禁止搜索引擎抓取我们网站上的所有图片(如果你的网站使用其他后缀的图片名称,在这里也可以直接添加)
有些时候,我们为了节省服务器资源,需要禁止各类搜索引擎来索引我们网站上的图片,这里的办法除了使用“Disallow: /images/”这样的直接屏蔽文件夹的方式之外,还 可以采取直接屏蔽图片后缀名的方式。
robots.txt写法如下:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$


robots 百度测试工具

打开https://ziyuan.baidu.com/robots/index,在右侧输入网站地址,点击检测,如果在根目录下已放置robots.txt文档,则会在下方显示您的Robots文件已生效。

在域名下输入指定路径进行校验,查看规则是否满足需求
 

robots  google测试工具

https://support.google.com/webmasters/answer/6062598?hl=zh-cqdqq


常见网站robots.txt

https://www.baidu.com/robots.txt
https://tieba.baidu.com/robots.txt
https://www.jd.com/robots.txt
https://www.taobao.com/robots.txt
https://www.zhihu.com/robots.txt
https://www.sogou.com/robots.txt
https://www.aliyun.com/robots.txt
https://cn.bing.com/robots.txt
https://www.google.com/robots.txt

  • 上一篇:宝塔面板网站日志不更新、文件太大解决方法
  • 下一篇:返回列表
  • 无相关信息
    主机资讯
    主机信息
    Host Gnome英国
    Host Gnome英国
    Sugarhosts
    Sugarhosts
    Vultr
    Vultr
    GT Host
    GT Host
    BandwagonHost搬瓦工
    BandwagonHost搬瓦工
    INCX
    INCX
    Ram Node
    Ram Node
    IO Zoom
    IO Zoom
    推荐信息

    相关文章

    无相关信息

    栏目更新

    Copyright © 2020 ushost.cn Inc. All Rights Reserved. 美国主机中文网 版权所有
    鄂ICP备06013414号-8