什么是robots.txt文件?
Robots.txt是一个文本文件,网站所有者可以创建它来告诉搜索引擎如何抓取和索引他们网站上的页面。它通常存储在网站的根目录下,也就是所谓的主文件夹中。robots.txt文件的基本格式是这样的:
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
User-agent: [user-agent name]
Allow: [URL string to be crawled]
Sitemap: [URL of your XML Sitemap]
你可以有多行指令来允许或不允许特定的URL,并添加多个网站地图。如果你不禁止一个URL,那么搜索引擎机器人就会认为他们被允许抓取它。下面是robots.txt示例文件的样子:
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Sitemap: https://example.com/sitemap_index.xml
在上面的robots.txt例子中,我们已经允许搜索引擎抓取和索引WordPress uploads文件夹中的文件。之后,我们禁止搜索引擎抓取Plugin和WordPress管理文件夹。最后,我们提供了XML网站地图的URL。
为什么需要提供Robots.txt文件?
如果你没有robots.txt文件,搜索引擎仍然会抓取和索引你的网站。然而,你将无法告诉搜索引擎哪些页面或文件夹他们不应该抓取。在这刚开始运营网站时不会有太大的影响,因为新网站往往没有太多内容时。
然而随着网站的发展,内容增多,那么我们需要更好地控制网站如何被抓取和索引。原因如下:
搜索机器人对每个网站都有一个抓取配额。这意味着搜索引擎在一个抓取session中只抓取一定数量的页面。如果它们没有抓取你网站上的所有页面,那么它们会在下一个会话中回来继续抓取。这可能会减慢我们网站索引率。
因此,我们可以通过禁止搜索引擎抓取不必要的页面来解决这个问题,比如您的WordPress管理页面(wp-admin)、插件文件(plugins)和主题(themes)文件夹。通过禁止不必要的页面,我们可以节省抓取配额。这有助于搜索引擎在我们网站上抓取更多的页面,并尽可能快地索引它们。
使用robots.txt文件的另一个理由是,当我们想阻止搜索引擎对你网站上的某个帖子或页面进行索引。虽然这不是向公众隐藏内容的最安全的方法,但它将帮助你阻止它们出现在搜索结果中。
理想的Robots.txt文件是什么样的?
许多大型网站都使用一个非常简单的robots.txt文件。它们的内容可能会有所不同,这取决于特定网站的需求。
User-agent: *
Disallow:
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml
这个robots.txt文件允许所有搜索引擎对所有内容进行索引,并为他们提供一个链接到网站的XML网站地图。对于WordPress网站,我建议在robots.txt文件中使用以下规则:
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /refer/
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml
这告诉搜索引擎索引所有WordPress的图片和文件。它不允许搜索引擎索引WordPress插件文件、WordPress管理区、WordPress readme文件和affiliate links。通过在robots.txt文件中添加网站地图,你可以让搜索引擎人轻松找到你网站上的所有页面。
现在我们知道了一个理想的robots.txt文件的样子,让我们来看看如何在WordPress中创建一个robots.txt文件。
如何在WordPress中创建Robots.txt文件?
许多WordPress SEO插件都支持动态生成robots.txt文件,例如All in One SEO 或者Yoast SEO。此外,我们可以通过FTP直接手动创建robots.txt文件。
如何测试Robots.txt文件?
一旦我们创建了robots.txt文件,我们需要使用robots.txt测试工具进行测试。市场上有很多robots.txt测试工具,最推荐的是Google Search Console和百度资源搜索平台中的测试工具。
以Google Search Console为例,首先,我们需要将网站与Google Search Console链接起来。然后,我们就可以使用Google Search Console Robots测试工具进行测试。
只需从下拉列表中选择我们需要检测的网站。该工具将自动获取你的网站的robots.txt文件,如果发现任何错误和警告,将突出显示。
一些个人想法
优化robots.txt文件的目的是为了防止搜索引擎抓取不公开的页面。例如,网站的wp-plugins文件夹中的页面或WordPress管理文件夹中的页面。
一个常见的误解是,很多人认为阻止抓取WordPress类别(catagory)、标签(tag)和存档(archive)页面将提高抓取率,并导致更快的索引和更高的排名。事实上这是错误的,这个操作也违反了谷歌的站长指南。
希望这篇文章能帮助初识WordPress的朋友了解如何优化WordPress robots.txt文件。