首页 > 网站优化 > 论做好“Robots.txt”文件的重要性

论做好“Robots.txt”文件的重要性

08-04 14:16 网站优化

那些创建网站的人使用名为robots.txt文件来告诉蜘蛛,比如蜘蛛如何在他们的网站上爬行特定的页面。robots.txt文件是其中的一部分,它指示某些网络爬虫是否可以通过允许(或不允许)某些用户代理的行为来爬行网站的各个部分

 

了解robots.txt很重要,因为可以真正帮助或伤害网站,请继续阅读,了解如何才能充分利用网站。

 

什么是Robots.txtRobots.txt文件重要吗

 

如果你没有正确地使用robots.txt,它会影响排名,因为该文件控制搜索引擎蜘蛛或爬虫如何查看网页并与网页进行交互。蜘蛛会读取robots.txt文件(如果你有的话),告诉他们是否应该抓取站点,如果是,抓取到什么程度和时间。

 

百度蜘蛛首先要看的是网站的robots.txt。它这样做是为了看看它是否有权四处爬行。robots.txt文件是一组蜘蛛指令,如果你知道你在做什么,可以让它说任何你想说的,甚至可以设置一个延迟,以便蜘蛛爬网,但在robots.txt文件中指定的时间段之后。

 

如何判断是否有Robots.txt文件

 

有很多方法可以告诉您是否已经有robots.txt文件。最常见的方法是键入根域URL,然后在其末尾添加/robots.txt,例如,如果网站是www.XXX.com,请键入www.XXX.com/robots.txt,如果没有robots.txt页面,则当前没有正在运行的活动robots.txt文件。

 

这可能是好的,也可能是坏的,这取决于网站需求,如果有一个robots.txt互动程序,必须确保它不会因为阻止不想被阻止的内容而损害排名。

 

创建Robots.txt文件的原因

 

虽然不一定需要robots.txt文件,但在某些情况下,启动并运行一个robots.txt文件是有益的。如果您有您想要从某些搜索引擎阻止的内容,或者如果您想要微调来自信誉良好的蜘蛛的访问,那么必须让robots.txt正常工作。

 

Robots

 

可以将robots.txt配置为符合所有条件,大多数网站管理员都具有创建、自定义和成功利用robots.txt文件的功能和权限。

 

当没有Robots.txt文件时

 

如果网站相对简单,没有错误,并且不包含任何您希望从搜索引擎中阻止的文件,那么不需要有robots.txt文件。即使你没有robots.txt文件,搜索引擎蜘蛛仍然可以完全访问网站,因此没有理由担心他们找不到你。

 

如果你想让任何人,越多越好,找到网站,看到它上的一切,最好的办法是根本没有robots.txt文件。这没什么问题,而且这是一种普遍的做法。不要觉得你错过了一些搜索引擎排名的关键工具。事实上,如果没有robots.txt文件,可能会享受到比原来更高的排名。

 

如何创建Robots.txt文件

 

如果可以复制和粘贴,那么也可以创建robots.txt文件。它非常简单,不需要编程技巧。MicrosoftWord或记事本就足够了。不需要使用代码编辑器。那太过分了。有无数的网站提供如何设置robots.txt文件的说明。

 

只需找到一个需要的例子,然后将文本复制粘贴到文件中。不要害怕,因为检查和查看文件设置是否正确与制作或修复文件一样简单。

 

Robots.txt文件应该怎么说?

 

robots.txt文件主要做三件事:允许、不允许或部分允许对站点进行爬网。如果你希望整个网站被爬网,你有三个选择。首先,你不能有一个Roopts.txt文件,这意味着网站上根本就没有一个文件。当蜘蛛开始爬行时,它会立即查找robots.txt文件。如果它找不到,它就会访问所有页面上的所有内容,因为没有什么告诉它不要。

 

Robots

 

也可以生成空白或空robots.txt文件。这样做的目的和没有目的是一样的。当蜘蛛来访问时,将没有任何东西可以阅读,它将再次爬行通过所有材料。如果不希望任何内容被bots爬网,则必须设置一个完整的disallowrobots.txt文件。不过,要小心,因为这将意味着百度和所有其他搜索引擎将不会索引或显示网站。不建议使用此方法。

 

为什么要使用Robots.txt文件

 

如果经历了创建一个网站的时间、麻烦和花费,很可能希望人们去看它,并且如果他们还不知道它存在的话,能够找到它。当你试图在搜索引擎排名中获得更高的排名时,爬虫是最好的选择。有时,可能不希望网站充斥着爬虫,至少是现在。

 

一个例子是,如果有一个页面仍然是一个粗略的草案。或者,爬网延迟可能会很有用,以避免服务器因流量过大而过载。您也可能不希望内部搜索引擎页面显示在任何其他地方,因为它将没有意义的上下文。

 

如何测试Robots.txt文件

 

如果您已经设置了一个disallow或partialdisallowrobots.txt文件,最好检查并确保它正常工作,可以在百度站长工具下检测robots.txt文件的内容,以及屏蔽的内容是否正确。

 

调用robotstxt呼叫蜘蛛

 

robots.txt文件非常类似于访问您站点的蜘蛛的一组说明。如果要对所有蜘蛛程序使用相同的指令集,可以为特定蜘蛛程序保留特定指令,也可以使用通配符。Googlebot和bingbot是两个可能访问您网站的蜘蛛示例。一般来说,当蜘蛛访问网站时,如果没有任何不想被索引的信息或图形,这是一件好事。

 

如果是这样的话,也许可以再考虑一下让私人内容发布在一个网站上,首先。如果有一张不想让别人看到的照片,它不应该出现在互联网上。然而,如果一个专业的摄影师想要出售作品,那么就要小心,图片不能被偷走。

 

虽然你可能希望蜘蛛能够找到网站,因为你想找到新的客户,可能不希望实际图片显示在搜索引擎的结果。如果它是受版权保护的,或者上面有水印,这样就不容易下载或以其他方式被盗。如果有一张与网站无关的图片,那就是可能希望在robots.txt文件中有部分不允许的东西的类型。

 

什么是爬行延迟,为什么要重视

 

有时蜘蛛会在想要它们之前爬行,至少可以说这是不可取的。百度、360和搜狗是一些经常很快就会出现的蜘蛛的例子。您可以通过在robots.txt中对块应用Crawldelay:10来阻止它们。这将使他们在爬行和重新进入网站之前等待10秒,这将有助于如果网站变得太困于交通。

 

如果正在编辑一个实时网站,这种方法也很有用,这样访问者就不会在不知不觉中看到正在进行的工作。这可能会导致他们认为网站是次品,永远不会回来。如果您延迟爬虫,这将了解发生这种情况的风险。

 

可能不想要的东西

 

在某些情况下,您可能不希望网站上的某些内容被蜘蛛爬网,这可能包括拍摄的个人照片或不想公开的信息。或者,您可能有一个内部搜索栏,只在网站内搜索。

 

若不希望搜索引擎显示某人搜索查询结果可能出现的页面,这可能是无用的,或更糟的是,混淆了一个潜在的新访问者到网站谁不会花时间到处寻找和找到相关的信息。

 

关于Robots.txt文件,您应该避免什么

 

爬行延迟有时是有用的,必须小心,因为它们很容易造成弊大于利。如果有一个有很多页面的大型网站,这可能特别有害,还应该避免阻止蜘蛛在整个网站上爬行,因为永远不会出现在搜索引擎的结果。

 

robotstxt蜘蛛

 

除非正在为自己制作剪贴簿,或者一个出于某种原因仍想上网的非常隐私的人,否则一定要出现在搜索引擎的结果中。事实上,很多人花了很多时间和金钱来提高自己的排名。通过禁止爬虫在网站上,可以说是在开枪打自己的脚。

 

结论

 

决定是否要使用robots.txt文件非常重要,如果决定要使用,则必须正确配置该文件。一个不正确的robots.txt文件可能会阻止bots索引页面,这将对搜索引擎排名不利。

 

事实上,可能根本就没出现,重要的是要记住,如果想让网站上的任何东西都被蜘蛛抓取,不使用robots.txt文件并不一定是件坏事。这是一个非常普遍和有用的做法,是完全可以接受的。

 

Robots.txt只是众多提高搜索引擎排名的方法之一。

 

seo优化-QiuTian

2020-08-04

版权保护: 转载请保留链接: http://www.qiutianseo.com/a/371.html