第 8 课：llms.txt——给 AI 看的'网站地图'新基础设施

robots.txt 告诉爬虫'不能访问什么'，llms.txt 告诉 AI 系统'最有用的内容是什么'。Jeremy Howard 2024 年 9 月提出的新标准——截至 2026 年初不到 5% 的网站有 llms.txt，是显著差异化点。这一课讲清楚完整规范 + 模板 + 11 项验证 + 与 llms-full.txt 区别 + 自动生成脚本 + 部署 30 分钟搞定。

上一课你解决了什么

如果你做完了国际 §7 的"5 平台 baseline 部署 + 选定 #1 平台深耕"，你的网站对 5 大 AI 引擎的基础可见性已建立。

但还有一件事：AI 怎么快速理解你的网站结构？

打开 ChatGPT / Claude / Perplexity 任何一个，问"yoursite.com 是做什么的？最重要的 3 个页面是哪些？"

3 种结果：

AI 准确答出 → 你的网站对 AI 的"自我描述"足够清晰
AI 答得模糊或错误 → AI 只能从你的爬取数据推断，无显式信号
AI 说"找不到信息" → 你的网站对 AI 完全不可见（或被 robots.txt 封了）

多数小网站测出第 2 种或第 3 种结果。原因不是内容差，而是没有给 AI 一份"你最重要的内容是什么"的显式说明。

llms.txt 就是这份显式说明：一份让 AI 30 秒内理解你网站的"机器可读 + 人类可读"摘要。

这一课讲清楚 5 件事：

llms.txt 是什么 + 由谁提出 + 为什么重要
完整规范 + 4 个区块模板：直接拷过去改
11 项验证检查：部署前必跑
llms.txt vs llms-full.txt 区别：什么时候只写简版，什么时候写完整版
30 分钟部署流程：从 0 到上线

学完你能用 30 分钟部署一份合规 llms.txt，做到这一步你已经在不到 5% 的网站之列。

llms.txt 是什么 + 由谁提出

llms.txt 是 Jeremy Howard（fast.ai 创始人）2024 年 9 月提出的标准。位于网站根目录：

https://yourdomain.com/llms.txt

它给 AI 系统提供站结构、内容、关键信息的结构化、机器可读、人类可读摘要。

和 robots.txt / sitemap.xml 三者关系：

3 个根目录文件的分工

robots.txt

告诉爬虫：不能访问什么｜内容：Allow / Disallow / User-agent 简单规则｜历史：1994 年提出，Web 标准｜AI 支持：所有 AI 爬虫强制遵守

访问控制

sitemap.xml

告诉爬虫：网站所有页面在哪｜内容：XML 列表｜历史：2005 年提出，Web 标准｜AI 支持：所有 AI 爬虫读取

完整页面索引

llms.txt

告诉 AI：最有用的内容是什么｜内容：Markdown 结构化文档（标题 + 描述 + 链接）｜历史：2024 年 9 月提出，社区提案｜AI 支持：Claude 公开支持，其他 AI 部分支持

AI 优先消费指南

3 个文件互补：robots.txt 限制访问 / sitemap.xml 列出所有页面 / llms.txt 显式告诉 AI 哪些页最重要。

截至 2026 年初的关键数据：

不到 5% 的网站部署了 llms.txt，是早期采用者差异化点
Claude 公开声明支持读取 llms.txt 做网站理解
ChatGPT / Perplexity / Gemini 没有公开承诺支持，但行业观察显示部分 llms.txt 内容被引用

常见问题

llms.txt 是强制标准吗？AI 厂商真会读它吗？

不是强制标准——是社区提案，没有 W3C 或 IETF 背书。但已被部分 AI 厂商和工具自发支持。已知支持情况：（1）Anthropic 的 Claude 在 web 浏览时会主动检查 llms.txt（公开声明）；（2）Perplexity 和 ChatGPT 没有公开承诺，但行业观察显示有部分 llms.txt 内容被它们引用；（3）Google AIO / Gemini 没有公开支持 llms.txt 协议——它们仍主要靠 sitemap.xml + 内链结构。判别口径：把 llms.txt 当"差异化早期采用"做，不要当"标准必做"——做了对支持的 AI 有效，对不支持的没坏处（多 1 个文件而已）。

写 llms.txt 服务商收费 5000 美元——值得吗？

不值得。llms.txt 写作本身是 30 分钟工作量——把你的 sitemap 关键页 + 业务描述按规范格式整理就行。服务商收 5000 美元做 llms.txt 是把 30 分钟工作包装成"GEO 基础设施服务"。判别口径：（1）如果服务商承诺"写完 llms.txt 立刻 AI 引用率 +50%"——夸大其词，llms.txt 是辅助信号不是引用引擎；（2）如果你需要的是 sitemap 整理 + 业务文档梳理服务，那是另一码事，但要求服务商按工时 / 内容产出量计价，不是按"llms.txt"打包卖你；（3）多数情况下你按本课模板自己写 30 分钟搞定，省 5000 美元。

llms.txt 和 llms-full.txt 的区别是什么？两个都要写吗？

llms.txt 是简版（50-150 行 / 10-30 关键页），llms-full.txt 是完整版（150-500+ 行 / 30-100+ 页 + 每页关键事实）。AI 系统先读 llms.txt 做快速理解，深度分析时可能加载 llms-full.txt。<strong>第一年只写 llms.txt 就够了</strong>——llms-full.txt 工作量是 llms.txt 的 5-10 倍，且边际收益不清晰。等你的 llms.txt 部署 6 个月后看 AI 引用变化，再决定要不要扩展成 llms-full.txt。多数中小内容方永远不需要 llms-full.txt。

我的网站是 SaaS 站点 + 博客 + 文档站——llms.txt 怎么组织区块？

按主导航类目镜像，不要发明新分类。SaaS + 博客 + 文档典型组织：（1）`## Products` 列产品页 / 定价页 / 功能页（5-10 条）；（2）`## Documentation` 列 API 文档 / 集成指南（5-10 条）；（3）`## Blog` 列 5-10 条最近 / 最高引用博客文章；（4）`## About` 列公司介绍 / 团队页；（5）`## Key Facts` 列业务关键数字（创立年份 / 客户数 / 总部）；（6）`## Contact` 列联系方式。总共 30-50 条目即可。如果你只有 SaaS 站没有博客 / 文档——只用 `## Products` + `## About` + `## Key Facts` + `## Contact` 即可。

llms.txt 部署后怎么验证 AI 真的看到了？

3 种方法：（1）curl 测试——`curl https://yoursite.com/llms.txt` 应返回 200 + 完整内容（如果返回 403 说明服务器封了，详见国际 §9 案例的 Finding 1）；（2）AI 助手测试——直接问 Claude / ChatGPT "请总结一下 yoursite.com 的 llms.txt 文件内容"，看 AI 能否引用文件具体内容；（3）GA4 监测——检查 `/llms.txt` 路径的 referrer / user-agent，看是哪些爬虫访问过（GPTBot / ClaudeBot / PerplexityBot 都有特征 UA）。3 个月内能看到部分 AI 爬虫访问该文件 = 部署成功。