GEO教科书都在推荐的llms.txt,为什么大模型爬虫根本不读?
llms.txt对提升AI搜索引用几乎没有直接效果。截至2026年6月,5.15亿次AI爬虫流量中仅408次请求命中了llms.txt文件,占比在统计上可忽略不计。Google、OpenAI、百度、字节跳动等主流厂商的爬虫均不将其作为有效信号。真正对GEO有帮助的是robots.txt配置、结构化数据和权威内容建设。
llms.txt到底是什么?跟robots.txt有什么区别?
llms.txt是由Answer.AI联合创始人Jeremy Howard于2024年9月提出的一个Markdown格式文件,放在网站根目录(如 https://example.com/llms.txt),用来告诉AI爬虫"应该读哪些页面"。
它跟robots.txt的本质区别在于:robots.txt管的是"能不能爬"(准入控制),llms.txt管的是"应该读什么"(内容导航)。llms.txt不限制任何爬虫的访问权限,也不是训练数据的退出机制。
听起来思路挺合理。问题在于——没人读。
数据说话:爬虫到底读不读llms.txt?
仙踪问道跟踪多份独立研究给出了高度一致的结论:爬虫读取率接近于零。
| 研究来源 | 样本规模 | 核心发现 |
|---|---|---|
| Limy.ai(2026年5月) | 5.15亿次AI bot流量,90天窗口 | 仅408次请求命中/llms.txt,统计上可忽略 |
| Adobe / Flavio Longato(2025年8月) | 1000个域名,30天CDN日志 | 95%流量来自Googlebot传统SEO爬取;GPTBot、ClaudeBot、PerplexityBot零访问 |
| SE Ranking(2025年11月) | 30万个域名 | 网站侧llms.txt采纳率10.13%,但爬虫读取率没有相应增长 |
| Search Engine Land(2026年1月) | 10个部署了llms.txt的网站 | 8个网站AI流量无可测量变化,2个增长与该文件无关,1个反而下降19.7% |
这组数据说明一个残酷的事实:你花时间写了llms.txt,但AI爬虫根本不在乎。
各大AI平台官方怎么表态的?
| AI平台 | 官方立场 | 自己是否发布了llms.txt | 爬虫是否读取 |
|---|---|---|---|
| Gary Illyes明确表示不支持,不打算支持;John Mueller将其比作已被废弃的keywords meta标签 | 是(自身文档站) | 否 | |
| OpenAI | 官方爬虫文档仅承认robots.txt,对llms.txt全程沉默 | 是(文档站) | 偶尔探测,未承诺作为信号 |
| Anthropic | 官方文档中列出并推荐llms.txt规范,是最积极的支持者 | 是 | ClaudeBot有读取行为,但未承诺用于搜索引用 |
| Perplexity | 自己发布了llms.txt和llms-full.txt | 是 | browse模式中有读取迹象,是目前背书最明确的 |
| Meta / Mistral | 无公开表态 | 否 | 否 |
这里有一个关键陷阱:Anthropic、Google、Perplexity发布自己的llms.txt是"供给侧行为"(作为网站方),不等于它们的爬虫在读取其他网站的llms.txt(需求侧行为)。发布和消费是两回事。
国内大模型爬虫的情况更糟
国内主流大模型厂商(百度文心、字节豆包、阿里通义、讯飞星火、MiniMax、DeepSeek等)在官方文档和爬虫声明中,对llms.txt完全没有任何提及。
没有承诺读取,没有格式规范,没有独立研究数据。综合判断:国内大模型爬虫读取llms.txt的概率接近于零。
更值得关注的是,部分国内爬虫对robots.txt的遵守本身就存在争议。据多方研究指出,字节跳动的Bytespider爬虫普遍无视robots.txt规则,特别是在AI训练数据采集模式下,抓取速度可达OpenAI爬虫的25倍,且不尊重限速规则。
为什么没人读llms.txt?五个结构性原因
不是标准协议。 llms.txt不是W3C标准,不是IETF RFC,从2024年9月提出至今19个月仍停留在"社区规范"状态,无治理机构、无版本控制、无合规验证机制。
激励倒置。 网站不确定写了有没有人读,爬虫不确定读了有多少网站写,两侧同时观望导致双侧停滞。
训练和推理用的是不同管线。 主要大模型厂商的训练数据大量依赖预建数据集(如Common Crawl),不是实时爬取。llms.txt这种实时在线文件对训练管线的影响路径非常迂回。
robots.txt已经够用了。 对爬虫方来说,robots.txt配合sitemap.xml已能完成"可爬哪里"的导航功能,多引入一个文件格式的边际收益不清晰。
国内额外阻力。 llms.txt的设计和推广主要发生在英语技术社区,国内厂商跟进动力低;加上数据合规方向的压力,厂商倾向于不公开承诺任何额外的内容抓取规则。
llms.txt唯一有效的场景:AI编程助手
虽然对GEO几乎无效,但llms.txt在AI编程助手和AI Agent领域已有实证效果。
Cursor、Claude Code、GitHub Copilot、Windsurf等IDE Agent会主动抓取文档站的llms.txt,用于生成准确的代码集成。MCP Server(如LangChain mcpdoc)将llms.txt作为工具调用的路由层。Mintlify、Fern、GitBook、Vercel Docs等文档平台已默认生成llms.txt。
那GEO到底该做什么?实践建议
| 行动 | 优先级 | 理由 |
|---|---|---|
| 维护好robots.txt | 必须做 | 所有合规爬虫的唯一公认控制机制 |
| 结构化内容(Schema.org / JSON-LD) | 高优先级 | 实际影响AI答案质量的技术信号 |
| 添加llms.txt | 中等(低成本) | 当前对AI搜索引用无直接效益,但IDE Agent/MCP生态有效 |
| 依赖llms.txt提升GEO排名 | 不建议 | 数据不支持,5.15亿事件中仅408次点击 |
robots.txt怎么写?面向LLM的基础配置
robots.txt是放在网站根目录的纯文本文件(如 https://example.com/robots.txt),所有合规爬虫都会优先读取它。以下是面向GEO的基础写法:
允许所有爬虫抓取:
User-agent: *
Disallow:
Sitemap: https://docs.riyuexinzhu.com/sitemap.xml
屏蔽特定路径(如后台、隐私页面):
User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /
Sitemap: https://docs.riyuexinzhu.com/sitemap.xml
针对AI爬虫的精细化控制(屏蔽训练用途,允许搜索用途):
# 屏蔽OpenAI训练爬虫
User-agent: GPTBot
Disallow: /
# 允许OpenAI搜索爬虫
User-agent: ChatGPT-User
Allow: /
# 屏蔽Anthropic训练爬虫
User-agent: ClaudeBot
Disallow: /
# 屏蔽字节跳动爬虫
User-agent: Bytespider
Disallow: /
Sitemap: https://example.com/sitemap.xml
几个要点:每个User-agent块独立生效;Disallow: /表示禁止所有路径;Allow: /表示允许所有路径;Sitemap声明帮助爬虫发现你的内容结构。对于国内站点,确保没有屏蔽Baiduspider,否则百度搜索引擎将无法正常收录。
总结一下
llms.txt是一个设计思路合理但生态远未成熟的提案。在AI搜索可见性(GEO)维度,国内外大模型爬虫当前均不以其为有效信号。把精力放在robots.txt配置、结构化数据(Schema.org/JSON-LD)、高质量权威内容建设上,回报更确定。
如果你运营的是面向开发者的技术文档站,加一个llms.txt成本很低,对AI编程助手生态有一定价值。但如果你的目标是让AI搜索引擎引用你的内容,llms.txt目前帮不了你。
常见问题
llms.txt和robots.txt有什么区别?
robots.txt控制爬虫"能不能爬"(准入控制),llms.txt告诉爬虫"应该读什么"(内容导航)。两者功能不同,不能互相替代。
写了llms.txt能提升AI搜索排名吗?
目前不能。多项独立研究显示,部署llms.txt后AI流量没有可测量的变化。Google明确表示不支持,国内厂商无任何官方表态。
llms.txt未来会被标准化吗?
IETF AIPREF工作组正在推进AI偏好标准化,但该工作组关注的是访问控制(类似robots.txt),而非内容导航(llms.txt的定位)。llms.txt现有格式被直接标准化的可能性不大。
国内爬虫遵守robots.txt吗?
Googlebot和Bingbot遵守最严格。百度Baiduspider理论上遵守但有偶发绕过行为。字节跳动Bytespider争议最大,多方研究指出其普遍无视robots.txt规则。
GEO优化应该把精力放在哪里?
优先级从高到低:robots.txt正确配置 > Schema.org结构化数据 > 高质量权威内容(含引用和数据)> 第三方平台品牌提及 > llms.txt(低成本可加,但别指望效果)。

