新手刚接触seo的时候,不会掌握廊坊seo的很多文档,比如很多常用文档,比如robots . txt(robots protocol document)。htacces(设置301/伪静态等文档)、sitemap.xml/txt/html(sitmap文档)等。今天廊坊SEO优化公司将详细介绍第一个文档机器人协议,希望有必要
什么是机器人协议?Robots是一个网站和一个网络爬虫之间的协议,它使用一个简单而直接的txt格式来通知匹配的网络爬虫允许的管理权限。换句话说,robots.txt是百度搜索引擎中浏览网站时首先要查询的文档。搜索引擎蜘蛛在浏览网站时,首先会检查网站的根目录下是否存在robots.txt。如果存在,搜索智能机器人会根据文件内容确定浏览范围。
如果文件不存在,所有搜索引擎蜘蛛将能够浏览网站上所有不是由动态密码维护的网页。简单来说就是让你的网站做一个详细的管理权限,告诉百度搜索引擎这些页面可以浏览,这些页面不能浏览。
机器人协议一般的机器人协议编写如下:
用户代理:*
不允许:/*?*
机器人协议在哪里?文件名robots.txt是固定的,一定要这样写。不管做什么网站,都是一样的名字。机器人协议文档放在网站根目录下。说白了,网站根目录是http://网站域名/robots.txt,可以马上浏览。别搞错了。
robots.txt的编写标准:
用户代理:*此处*表示所有百度搜索引擎类型,*是一个通配符,允许搜索引擎蜘蛛浏览所有网页。
不允许:/admin/这里的定义是禁止对管理文件目录下的文件目录进行爬网。
Disallow:/require/这里的定义是,禁止对需要文件目录下的文件目录进行爬网。
不允许:/cgi-bin/*。htm禁止访问/cgi-bin/ file目录中的所有文件。htm & quot后缀名称的URL(包括根目录)。
不允许:/abc/这里的定义是严格禁止对所有abc文件目录进行爬网。
不允许:/*?*禁止访问网站中的所有动态网页。
不允许:/jpg$禁止抓取中的所有照片。网页上的jpg格式。
Allow:/tmp这里定义了所有允许爬行tmp的文件目录。
允许:。htm$只允许浏览到"。htm & quot是后缀的URL。
允许:。gif$允许抓取gif格式的网页和照片。
廊坊Seo优化是一个长期的过程,需要我们投入足够的心力去运营和维护。从最初的网站建设规划到网站首页设计,后续的网站建设和运营都可以用心做好。只有一开始注意细节,后期操作起来才会方便很多。