上一课你解决了什么
如果你做完了国际 §7 的"5 平台 baseline 部署 + 选定 #1 平台深耕",你的网站对 5 大 AI 引擎的基础可见性已建立。
但还有一件事:AI 怎么快速理解你的网站结构?
打开 ChatGPT / Claude / Perplexity 任何一个,问"yoursite.com 是做什么的?最重要的 3 个页面是哪些?"
3 种结果:
- AI 准确答出 → 你的网站对 AI 的"自我描述"足够清晰
- AI 答得模糊或错误 → AI 只能从你的爬取数据推断,无显式信号
- AI 说"找不到信息" → 你的网站对 AI 完全不可见(或被 robots.txt 封了)
多数小网站测出第 2 种或第 3 种结果。原因不是内容差,而是没有给 AI 一份"你最重要的内容是什么"的显式说明。
llms.txt 就是这份显式说明:一份让 AI 30 秒内理解你网站的"机器可读 + 人类可读"摘要。
这一课讲清楚 5 件事:
- llms.txt 是什么 + 由谁提出 + 为什么重要
- 完整规范 + 4 个区块模板:直接拷过去改
- 11 项验证检查:部署前必跑
- llms.txt vs llms-full.txt 区别:什么时候只写简版,什么时候写完整版
- 30 分钟部署流程:从 0 到上线
学完你能用 30 分钟部署一份合规 llms.txt,做到这一步你已经在不到 5% 的网站之列。
llms.txt 是什么 + 由谁提出
llms.txt 是 Jeremy Howard(fast.ai 创始人)2024 年 9 月提出的标准。位于网站根目录:
https://yourdomain.com/llms.txt
它给 AI 系统提供站结构、内容、关键信息的结构化、机器可读、人类可读摘要。
和 robots.txt / sitemap.xml 三者关系:
3 个根目录文件的分工
robots.txt
告诉爬虫:不能访问什么|内容:Allow / Disallow / User-agent 简单规则|历史:1994 年提出,Web 标准|AI 支持:所有 AI 爬虫强制遵守
访问控制
sitemap.xml
告诉爬虫:网站所有页面在哪|内容:XML 列表|历史:2005 年提出,Web 标准|AI 支持:所有 AI 爬虫读取
完整页面索引
llms.txt
告诉 AI:最有用的内容是什么|内容:Markdown 结构化文档(标题 + 描述 + 链接)|历史:2024 年 9 月提出,社区提案|AI 支持:Claude 公开支持,其他 AI 部分支持
AI 优先消费指南
3 个文件互补:robots.txt 限制访问 / sitemap.xml 列出所有页面 / llms.txt 显式告诉 AI 哪些页最重要。
截至 2026 年初的关键数据:
- 不到 5% 的网站部署了 llms.txt,是早期采用者差异化点
- Claude 公开声明支持读取 llms.txt 做网站理解
- ChatGPT / Perplexity / Gemini 没有公开承诺支持,但行业观察显示部分 llms.txt 内容被引用
常见问题
llms.txt 是强制标准吗?AI 厂商真会读它吗?
不是强制标准——是社区提案,没有 W3C 或 IETF 背书。但已被部分 AI 厂商和工具自发支持。已知支持情况:(1)Anthropic 的 Claude 在 web 浏览时会主动检查 llms.txt(公开声明);(2)Perplexity 和 ChatGPT 没有公开承诺,但行业观察显示有部分 llms.txt 内容被它们引用;(3)Google AIO / Gemini 没有公开支持 llms.txt 协议——它们仍主要靠 sitemap.xml + 内链结构。判别口径:把 llms.txt 当"差异化早期采用"做,不要当"标准必做"——做了对支持的 AI 有效,对不支持的没坏处(多 1 个文件而已)。
写 llms.txt 服务商收费 5000 美元——值得吗?
不值得。llms.txt 写作本身是 30 分钟工作量——把你的 sitemap 关键页 + 业务描述按规范格式整理就行。服务商收 5000 美元做 llms.txt 是把 30 分钟工作包装成"GEO 基础设施服务"。判别口径:(1)如果服务商承诺"写完 llms.txt 立刻 AI 引用率 +50%"——夸大其词,llms.txt 是辅助信号不是引用引擎;(2)如果你需要的是 sitemap 整理 + 业务文档梳理服务,那是另一码事,但要求服务商按工时 / 内容产出量计价,不是按"llms.txt"打包卖你;(3)多数情况下你按本课模板自己写 30 分钟搞定,省 5000 美元。
llms.txt 和 llms-full.txt 的区别是什么?两个都要写吗?
llms.txt 是简版(50-150 行 / 10-30 关键页),llms-full.txt 是完整版(150-500+ 行 / 30-100+ 页 + 每页关键事实)。AI 系统先读 llms.txt 做快速理解,深度分析时可能加载 llms-full.txt。<strong>第一年只写 llms.txt 就够了</strong>——llms-full.txt 工作量是 llms.txt 的 5-10 倍,且边际收益不清晰。等你的 llms.txt 部署 6 个月后看 AI 引用变化,再决定要不要扩展成 llms-full.txt。多数中小内容方永远不需要 llms-full.txt。
我的网站是 SaaS 站点 + 博客 + 文档站——llms.txt 怎么组织区块?
按主导航类目镜像,不要发明新分类。SaaS + 博客 + 文档典型组织:(1)`## Products` 列产品页 / 定价页 / 功能页(5-10 条);(2)`## Documentation` 列 API 文档 / 集成指南(5-10 条);(3)`## Blog` 列 5-10 条最近 / 最高引用博客文章;(4)`## About` 列公司介绍 / 团队页;(5)`## Key Facts` 列业务关键数字(创立年份 / 客户数 / 总部);(6)`## Contact` 列联系方式。总共 30-50 条目即可。如果你只有 SaaS 站没有博客 / 文档——只用 `## Products` + `## About` + `## Key Facts` + `## Contact` 即可。
llms.txt 部署后怎么验证 AI 真的看到了?
3 种方法:(1)curl 测试——`curl https://yoursite.com/llms.txt` 应返回 200 + 完整内容(如果返回 403 说明服务器封了,详见国际 §9 案例的 Finding 1);(2)AI 助手测试——直接问 Claude / ChatGPT "请总结一下 yoursite.com 的 llms.txt 文件内容",看 AI 能否引用文件具体内容;(3)GA4 监测——检查 `/llms.txt` 路径的 referrer / user-agent,看是哪些爬虫访问过(GPTBot / ClaudeBot / PerplexityBot 都有特征 UA)。3 个月内能看到部分 AI 爬虫访问该文件 = 部署成功。