分析文章

GEO教科书都在推荐的llms.txt，为什么大模型爬虫根本不读？

llms.txt对提升AI搜索引用几乎没有直接效果。截至2026年6月，5.15亿次AI爬虫流量中仅408次请求命中了llms.txt文件，占比在统计上可忽略不计。Google、OpenAI、百度、字节跳动等主流厂商的爬虫均不将其作为有效信号。真正对GEO有帮助的是robots.txt配置、结构化数据和权威内容建设。

仙踪问道

13 Jun 2026 — 8 min read

llms.txt到底是什么？跟robots.txt有什么区别？

llms.txt是由Answer.AI联合创始人Jeremy Howard于2024年9月提出的一个Markdown格式文件，放在网站根目录（如 https://example.com/llms.txt），用来告诉AI爬虫"应该读哪些页面"。

它跟robots.txt的本质区别在于：robots.txt管的是"能不能爬"（准入控制），llms.txt管的是"应该读什么"（内容导航）。llms.txt不限制任何爬虫的访问权限，也不是训练数据的退出机制。

听起来思路挺合理。问题在于——没人读。

数据说话：爬虫到底读不读llms.txt？

仙踪问道跟踪多份独立研究给出了高度一致的结论：爬虫读取率接近于零。

研究来源	样本规模	核心发现
Limy.ai（2026年5月）	5.15亿次AI bot流量，90天窗口	仅408次请求命中/llms.txt，统计上可忽略
Adobe / Flavio Longato（2025年8月）	1000个域名，30天CDN日志	95%流量来自Googlebot传统SEO爬取；GPTBot、ClaudeBot、PerplexityBot零访问
SE Ranking（2025年11月）	30万个域名	网站侧llms.txt采纳率10.13%，但爬虫读取率没有相应增长
Search Engine Land（2026年1月）	10个部署了llms.txt的网站	8个网站AI流量无可测量变化，2个增长与该文件无关，1个反而下降19.7%

这组数据说明一个残酷的事实：你花时间写了llms.txt，但AI爬虫根本不在乎。

各大AI平台官方怎么表态的？

AI平台	官方立场	自己是否发布了llms.txt	爬虫是否读取
Google	Gary Illyes明确表示不支持，不打算支持；John Mueller将其比作已被废弃的keywords meta标签	是（自身文档站）	否
OpenAI	官方爬虫文档仅承认robots.txt，对llms.txt全程沉默	是（文档站）	偶尔探测，未承诺作为信号
Anthropic	官方文档中列出并推荐llms.txt规范，是最积极的支持者	是	ClaudeBot有读取行为，但未承诺用于搜索引用
Perplexity	自己发布了llms.txt和llms-full.txt	是	browse模式中有读取迹象，是目前背书最明确的
Meta / Mistral	无公开表态	否	否

这里有一个关键陷阱：Anthropic、Google、Perplexity发布自己的llms.txt是"供给侧行为"（作为网站方），不等于它们的爬虫在读取其他网站的llms.txt（需求侧行为）。发布和消费是两回事。

国内大模型爬虫的情况更糟

国内主流大模型厂商（百度文心、字节豆包、阿里通义、讯飞星火、MiniMax、DeepSeek等）在官方文档和爬虫声明中，对llms.txt完全没有任何提及。

没有承诺读取，没有格式规范，没有独立研究数据。综合判断：国内大模型爬虫读取llms.txt的概率接近于零。

更值得关注的是，部分国内爬虫对robots.txt的遵守本身就存在争议。据多方研究指出，字节跳动的Bytespider爬虫普遍无视robots.txt规则，特别是在AI训练数据采集模式下，抓取速度可达OpenAI爬虫的25倍，且不尊重限速规则。

为什么没人读llms.txt？五个结构性原因

不是标准协议。 llms.txt不是W3C标准，不是IETF RFC，从2024年9月提出至今19个月仍停留在"社区规范"状态，无治理机构、无版本控制、无合规验证机制。

激励倒置。 网站不确定写了有没有人读，爬虫不确定读了有多少网站写，两侧同时观望导致双侧停滞。

训练和推理用的是不同管线。 主要大模型厂商的训练数据大量依赖预建数据集（如Common Crawl），不是实时爬取。llms.txt这种实时在线文件对训练管线的影响路径非常迂回。

robots.txt已经够用了。 对爬虫方来说，robots.txt配合sitemap.xml已能完成"可爬哪里"的导航功能，多引入一个文件格式的边际收益不清晰。

国内额外阻力。 llms.txt的设计和推广主要发生在英语技术社区，国内厂商跟进动力低；加上数据合规方向的压力，厂商倾向于不公开承诺任何额外的内容抓取规则。

llms.txt唯一有效的场景：AI编程助手

虽然对GEO几乎无效，但llms.txt在AI编程助手和AI Agent领域已有实证效果。

Cursor、Claude Code、GitHub Copilot、Windsurf等IDE Agent会主动抓取文档站的llms.txt，用于生成准确的代码集成。MCP Server（如LangChain mcpdoc）将llms.txt作为工具调用的路由层。Mintlify、Fern、GitBook、Vercel Docs等文档平台已默认生成llms.txt。

那GEO到底该做什么？实践建议

行动	优先级	理由
维护好robots.txt	必须做	所有合规爬虫的唯一公认控制机制
结构化内容（Schema.org / JSON-LD）	高优先级	实际影响AI答案质量的技术信号
添加llms.txt	中等（低成本）	当前对AI搜索引用无直接效益，但IDE Agent/MCP生态有效
依赖llms.txt提升GEO排名	不建议	数据不支持，5.15亿事件中仅408次点击

robots.txt怎么写？面向LLM的基础配置

robots.txt是放在网站根目录的纯文本文件（如 https://example.com/robots.txt），所有合规爬虫都会优先读取它。以下是面向GEO的基础写法：

允许所有爬虫抓取：

User-agent: *
Disallow:
Sitemap: https://docs.riyuexinzhu.com/sitemap.xml

屏蔽特定路径（如后台、隐私页面）：

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /
Sitemap: https://docs.riyuexinzhu.com/sitemap.xml

针对AI爬虫的精细化控制（屏蔽训练用途，允许搜索用途）：

# 屏蔽OpenAI训练爬虫
User-agent: GPTBot
Disallow: /

# 允许OpenAI搜索爬虫
User-agent: ChatGPT-User
Allow: /

# 屏蔽Anthropic训练爬虫
User-agent: ClaudeBot
Disallow: /

# 屏蔽字节跳动爬虫
User-agent: Bytespider
Disallow: /

Sitemap: https://example.com/sitemap.xml

几个要点：每个User-agent块独立生效；Disallow: /表示禁止所有路径；Allow: /表示允许所有路径；Sitemap声明帮助爬虫发现你的内容结构。对于国内站点，确保没有屏蔽Baiduspider，否则百度搜索引擎将无法正常收录。

总结一下

llms.txt是一个设计思路合理但生态远未成熟的提案。在AI搜索可见性（GEO）维度，国内外大模型爬虫当前均不以其为有效信号。把精力放在robots.txt配置、结构化数据（Schema.org/JSON-LD）、高质量权威内容建设上，回报更确定。

如果你运营的是面向开发者的技术文档站，加一个llms.txt成本很低，对AI编程助手生态有一定价值。但如果你的目标是让AI搜索引擎引用你的内容，llms.txt目前帮不了你。

常见问题

llms.txt和robots.txt有什么区别？
robots.txt控制爬虫"能不能爬"（准入控制），llms.txt告诉爬虫"应该读什么"（内容导航）。两者功能不同，不能互相替代。

写了llms.txt能提升AI搜索排名吗？
目前不能。多项独立研究显示，部署llms.txt后AI流量没有可测量的变化。Google明确表示不支持，国内厂商无任何官方表态。

llms.txt未来会被标准化吗？
IETF AIPREF工作组正在推进AI偏好标准化，但该工作组关注的是访问控制（类似robots.txt），而非内容导航（llms.txt的定位）。llms.txt现有格式被直接标准化的可能性不大。

国内爬虫遵守robots.txt吗？
Googlebot和Bingbot遵守最严格。百度Baiduspider理论上遵守但有偶发绕过行为。字节跳动Bytespider争议最大，多方研究指出其普遍无视robots.txt规则。

GEO优化应该把精力放在哪里？
优先级从高到低：robots.txt正确配置 > Schema.org结构化数据 > 高质量权威内容（含引用和数据）> 第三方平台品牌提及 > llms.txt（低成本可加，但别指望效果）。