阻止这些机器人的结果百分比远高于子域的百分比

rakibhasan · Post by **rakibhasan** » Tue Dec 24, 2024 8:24 am

这一事实表明，排名良好且包含大量关键词的子域被阻止的可能性不成比例。这与我在本文简介中提到的“杠杆”原理一致。如果我们按域权限进行细分，我们可以看到类似的情况：

图表显示了按域名权限阻止 AI 机器人的网站
高 DA 网站更有可能阻止这些机器人。如果您想知道高 DA 网站阻止普通的旧 Googlebot 的原因，那主要是政府或银行部门的网站，这些网站显然会接收到如此强烈的信号，以至于 Google 认为有必要对它们进行排名，尽管无法抓取内容。

为什么你或其他人应该阻止人工智能机器人？
我在上一篇文章中介绍了一些可能存在的争论，但事阿塞拜疆电话号码资料实是，从目前这些模型带来的流量来看，短期内可能不会产生太大影响。如果你在撰写本文时查看 Moz 的 robots.txt 文件，你会看到我们阻止 GPTBot 进入我们的学习中心和博客 - 这是一个折衷的立场，但到目前为止我们还没有真正看到它带来任何好处或坏处，我们也不会期望在短期内看到。我当然不认为与阻止 Googlebot 的比较是公平的 - LLM 主要是一种内容生成工具，而不是主要的流量推荐工具。事实上，谷歌已经表示，即使是他们的 AI 概览也不会受到 Google-Extended 的影响，而是受到常规 Googlebot 的影响。同样，在撰写本文时，OpenAI 刚刚宣布了他们的直接谷歌竞争对手“SearchGPT”，并证实，与谷歌一样，它正在使用单独的用户代理来抓取其他生成 AI 工具 - 在这种情况下是“OAI-SearchBot”。

我在那篇文章中没有涉及的是大型出版商的情况。如果你是一家大型出版商，并且你确实认为自己有影响力，并且可能能够达成协议，那么你可能希望开创一个先例——除非他们达成正式协议，否则这些工具不享有免费访问权。例如，The Verge 的母公司 Vox Media 公开表示，他们在最终达成协议之前会阻止访问。theverge.com 上的 robots.txt 文件仍然明确阻止大多数其他 AI 机器人，但不再阻止 GPTbot。

当然，大多数网站和这篇博文的大多数读者都不是大型出版商。在人工智能编写的内容中被提及可能比你试图保护内容的独特价值更有价值，特别是在一个竞争激烈的市场中，而这些竞争者却没有这种顾虑。不过，看到这里树立的先例很有趣，看看它如何发挥作用将更加有趣。