网站 URL | 相应的 robots.txt的 URL |
http://www.w3.org/ | http://www.w3.org/robots.txt |
http://www.w3.org:80/ | http://www.w3.org:80/robots.txt |
http://www.w3.org:1234/ | http://www.w3.org:1234/robots.txt |
http://w3.org/ | http://w3.org/robots.txt |
例1. 禁止所有搜索引擎访问网站的任何部分 下载该robots.txt文件 |
User-agent: * Disallow: / |
例2. 允许所有的robot访问 (或者也可以建一个空文件 "/robots.txt" file) | User-agent: * Disallow: |
例3. 禁止某个搜索引擎的访问 | User-agent: BadBot Disallow: / |
例4. 允许某个搜索引擎的访问 | User-agent: baiduspider Disallow: User-agent: * Disallow: / |
例5.一个简单例子 在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。 需要注意的是对每一个目录必须分开声明,而不要写成 "Disallow: /cgi-bin/ /tmp/"。 User-agent:后的*具有特殊的含义,代表"any robot",所以在该文件中不能有"Disallow: /tmp/*" or "Disallow:*.gif"这样的记录出现. |
User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /~joe/ |
了解这些字:禁的意思 止的意思 搜的意思 索的意思 引的意思 擎的意思 收的意思 录的意思