上一课你解决了什么
如果你做完了国际 §7 的"5 平台 baseline 部署 + 选定 #1 平台深耕",你的网站对 5 大 AI 引擎的基础可见性已建立。
但还有一件事:AI 怎么快速理解你的网站结构?
打开 ChatGPT / Claude / Perplexity 任何一个,问"yoursite.com 是做什么的?最重要的 3 个页面是哪些?"
3 种结果:
- AI 准确答出 → 你的网站对 AI 的"自我描述"足够清晰
- AI 答得模糊或错误 → AI 只能从你的爬取数据推断,无显式信号
- AI 说"找不到信息" → 你的网站对 AI 完全不可见(或被 robots.txt 封了)
多数小网站测出第 2 种或第 3 种结果。原因不是内容差,而是没有给 AI 一份"你最重要的内容是什么"的显式说明。
llms.txt 就是这份显式说明:一份让 AI 30 秒内理解你网站的"机器可读 + 人类可读"摘要。
这一课讲清楚 5 件事:
- llms.txt 是什么 + 由谁提出 + 为什么重要
- 完整规范 + 4 个区块模板:直接拷过去改
- 11 项验证检查:部署前必跑
- llms.txt vs llms-full.txt 区别:什么时候只写简版,什么时候写完整版
- 30 分钟部署流程:从 0 到上线
学完你能用 30 分钟部署一份合规 llms.txt,做到这一步你已经在不到 5% 的网站之列。
llms.txt 是什么 + 由谁提出
llms.txt 是 Jeremy Howard(fast.ai 创始人)2024 年 9 月提出的标准。位于网站根目录:
https://yourdomain.com/llms.txt
它给 AI 系统提供站结构、内容、关键信息的结构化、机器可读、人类可读摘要。
和 robots.txt / sitemap.xml 三者关系:
3 个文件互补:robots.txt 限制访问 / sitemap.xml 列出所有页面 / llms.txt 显式告诉 AI 哪些页最重要。
截至 2026 年初的关键数据:
- 不到 5% 的网站部署了 llms.txt,是早期采用者差异化点
- Claude 公开声明支持读取 llms.txt 做网站理解
- ChatGPT / Perplexity / Gemini 没有公开承诺支持,但行业观察显示部分 llms.txt 内容被引用
为什么 llms.txt 重要:5 个好处
AI 模型在处理网站时面对一个根本挑战:判断哪些页最重要、站讲什么、内容怎么组织,通常通过爬许多页推断结构。llms.txt 用一个文件显式提供这些信息。
| # | 好处 | 量化表现 |
|---|---|---|
| 1 | 更快 AI 理解 | AI 从单文件理解站目的和结构,无需爬十几页 |
| 2 | 掌控叙事 | 你选 AI 看哪些页和事实,塑造它如何呈现你的品牌 |
| 3 | 更高引用准确性 | 咨询 llms.txt 的 AI 系统能引用每个话题的正确权威页 |
| 4 | 减少错表 | 关键事实(定价、特性、位置)显式声明,减少 AI 关于业务的幻觉 |
| 5 | 早期采用者优势 | 截至 2026 年初 < 5% 的网站有 llms.txt,是显著差异化点 |
最被低估的好处是 #4 减少错表:AI 在不知道你公司确切信息时会"幻觉"出错误数据(如把"创立 2018"说成"创立 2015",把"100 人团队"说成"几百人团队")。llms.txt 的 Key Facts 区显式声明这些数据,AI 引用时直接拿这份权威源。
完整文件格式
llms.txt 是一份纯 Markdown 文件,任何文本编辑器都能写。
基础结构
# [站名]
> [一句描述:站/业务做什么。< 200 字符]
## Docs
- [Page Title](https://example.com/page-url): 简洁描述本页覆盖什么、为什么重要。
- [Another Page](https://example.com/another-page): 描述。
## Optional
- [Less Critical Page](https://example.com/optional-page): 描述。
详细规则
1. 标题(必需)
# 站名
- 必须是文件第一行
- 应是官方业务 / 站名
- H1 格式(单
#)
2. 描述(必需)
> 简短描述
- 紧跟在标题后
- Markdown blockquote(
>) - < 200 字符
- 清晰陈述业务做什么、给谁
- 避免营销话:事实、具体
3. 主区块(至少一个,必需)
H2(##)按类目组织页。常见区块名:
| 区块 | 用途 | 例子 |
|---|---|---|
## Docs |
主文档或关键页 | 产品页、服务描述、核心内容 |
## Optional |
值得知道的次要页 | 博客文章、补充资源 |
## API |
API 文档 | API 参考、认证指南 |
## Blog |
博客或新闻 | 近期 / 热门文章 |
## Products |
产品目录 | 产品页、定价 |
## Services |
服务 | 服务描述、流程页 |
## About |
公司信息 | About 页、团队、使命 |
## Resources |
教育 / 参考内容 | 指南、教程、白皮书 |
## Legal |
法律文档 | TOS、隐私政策 |
## Contact |
联系信息 | 联系页、支持渠道 |
4. 页面条目(必需)
每条格式:
- [Page Title](URL): 页面内容描述
规则:
- 标题:实际页标题或清晰描述性标题
- URL:完整绝对 URL(不是相对路径)
- 描述:10-30 词描述本页内容。具体说明可获信息
- 顺序:每区块内按重要性列
- 限制:总共 10-30 条。优先最权威、有用的页
5. Key Facts 区(推荐)
## Key Facts
- 创立于 [年份],由 [创始人]
- 总部:[城市,国家]
- 服务 [X] 客户/用户在 [Y] 国家
- 关键产品:[A]、[B]、[C]
- 行业:[分类]
6. Contact 区(推荐)
## Contact
- Website: https://example.com
- Email: hello@example.com
- Support: support@example.com
- Phone: +1-555-123-4567
- Address: 123 Main St, City, State, ZIP
描述写得好 vs 写得差
描述部分是 llms.txt 最容易踩坑的地方:多数人写成营销话,AI 拿不到具体信息。
✅ 好的描述(具体、信息丰富):
- “Explains the three pricing tiers (Free, Pro, Enterprise) with feature comparison and annual/monthly costs.”
- “Details the company’s founding in 2018, team of 45 employees, and office locations in Austin and London.”
- “Covers integration setup for Slack, Salesforce, and HubSpot with step-by-step guides and API endpoints.”
❌ 差的描述(营销腔、模糊):
- “Our amazing pricing page!"(营销话,无具体信息)
- “Learn more about our company."(太模糊)
- “Click here for details."(无描述性)
判别公式:如果 AI 仅读你的描述就能回答用户"这页讲什么”,✅ 好。如果 AI 仍需要点击进去才知道,❌ 差。
完整模板示例:SaaS 站
下面给一份典型 B2B SaaS 站的完整 llms.txt 模板。直接拷过去改字段。
# Acme Analytics
> B2B analytics platform for product teams. Tracks user behavior across web and mobile, provides cohort analysis and funnel reporting. Founded 2019, serving 1,200+ companies in 40 countries.
## Products
- [Product Overview](https://acmeanalytics.com/product): Lists all 4 product modules (Events, Funnels, Cohorts, Reports) with feature comparison and use cases.
- [Pricing](https://acmeanalytics.com/pricing): 3 pricing tiers (Free $0/mo, Pro $99/mo, Enterprise custom) with feature matrix and event volume limits.
- [Integrations](https://acmeanalytics.com/integrations): Setup guides for 30+ integrations (Segment, Mixpanel migration, Slack, HubSpot, Salesforce, Zapier).
## Documentation
- [API Reference](https://docs.acmeanalytics.com/api): Complete REST API documentation with authentication, rate limits, and 50+ endpoint examples.
- [Quickstart Guide](https://docs.acmeanalytics.com/quickstart): 15-minute setup tutorial from account creation to first event tracked.
- [SDK Libraries](https://docs.acmeanalytics.com/sdks): Official SDKs for JavaScript, Python, Ruby, Go, iOS, Android with installation instructions.
## Blog
- [Cohort Analysis Best Practices 2026](https://acmeanalytics.com/blog/cohort-analysis-2026): 3,200-word guide to cohort analysis with 12 real examples and SQL templates.
- [Why Funnel Drop-off Analysis Matters](https://acmeanalytics.com/blog/funnel-dropoff): Case study showing 23% conversion lift through funnel optimization.
## About
- [About Us](https://acmeanalytics.com/about): Company history (founded 2019), team of 35 (15 engineers), Series A funded by Sequoia.
- [Team](https://acmeanalytics.com/team): Profiles of 8 leadership members with backgrounds at Google, Meta, Stripe.
## Key Facts
- Founded: 2019 by Jane Doe (CEO, ex-Stripe) and John Smith (CTO, ex-Google)
- Headquarters: San Francisco, California, USA
- Team: 35 employees (15 engineers, 10 sales/marketing, 10 operations)
- Customers: 1,200+ companies in 40 countries
- Funding: Series A, $12M led by Sequoia Capital (2024)
- Product Categories: Event tracking, Funnels, Cohorts, Reports
- Industry: B2B SaaS, Product Analytics
- Pricing: Free tier available, Pro starts at $99/month, Enterprise custom
## Contact
- Website: https://acmeanalytics.com
- Email: hello@acmeanalytics.com
- Support: support@acmeanalytics.com
- Sales: sales@acmeanalytics.com
- Twitter: https://twitter.com/acmeanalytics
- LinkedIn: https://www.linkedin.com/company/acmeanalytics
这份模板的特点:
- 6 个区块覆盖典型 B2B SaaS 全部需求
- 描述都是 10-30 词、含具体数字和信息
- Key Facts 含 8 条业务事实,AI 引用时直接拿权威源
- Contact 含 6 个联系渠道(email + sales + Twitter + LinkedIn)
直接复制 → 改字段 → 上传到根目录 = 30 分钟搞定。
11 项验证检查
部署前必跑的 11 项检查。
| # | 元素 | 检查 | 缺失严重度 |
|---|---|---|---|
| 1 | H1 标题 | 存在,匹配业务名 | Critical |
| 2 | Blockquote 描述 | 存在,<200 字符,事实 | High |
| 3 | 至少一个 H2 区块 | 存在 | Critical |
| 4 | 含 URL 的页条目 | 至少 5 条 | High |
| 5 | URL 是绝对的 | 全用完整 https:// | High |
| 6 | URL 有效 | 全部返回 200 | Medium |
| 7 | 描述存在 | 每个条目含冒号后描述 | Medium |
| 8 | Key Facts 区块 | 存在含业务信息 | Medium |
| 9 | Contact 区块 | 存在至少含邮件 | Low |
| 10 | 长度合理 | 30-200 行 | Low |
| 11 | Markdown 无错 | 全文格式正确 | Medium |
Critical 项必修:H1 和至少一个 H2 缺失 = 整个文件 AI 无法解析。High 项尽量修:影响 AI 理解效果。Medium / Low 项可逐步补。
自动跑 11 项检查的脚本:
#!/bin/bash
URL="https://yoursite.com/llms.txt"
content=$(curl -s "$URL")
# Critical 检查
echo "$content" | head -1 | grep -q "^# " && echo "✓ #1 H1 OK" || echo "✗ #1 缺 H1"
echo "$content" | grep -q "^## " && echo "✓ #3 H2 OK" || echo "✗ #3 缺 H2"
# High 检查
desc_line=$(echo "$content" | grep "^> " | head -1)
desc_len=${#desc_line}
[ $desc_len -lt 200 ] && [ $desc_len -gt 0 ] && echo "✓ #2 描述 OK ($desc_len 字符)" || echo "✗ #2 描述问题"
url_count=$(echo "$content" | grep -c "https://")
[ $url_count -ge 5 ] && echo "✓ #4 URL 数量 OK ($url_count 条)" || echo "✗ #4 URL 不足 5 条"
abs_count=$(echo "$content" | grep -c "(https://")
rel_count=$(echo "$content" | grep -c "(/")
[ $rel_count -eq 0 ] && echo "✓ #5 全用绝对 URL" || echo "✗ #5 含 $rel_count 个相对 URL"
# Low 检查
line_count=$(echo "$content" | wc -l)
[ $line_count -ge 30 ] && [ $line_count -le 200 ] && echo "✓ #10 长度合理 ($line_count 行)" || echo "✗ #10 长度异常 ($line_count 行)"
部署完跑这个脚本,5 秒拿到完整 11 项报告。
llms.txt vs llms-full.txt:什么时候写完整版
llms-full.txt 是 llms.txt 的扩展版:更长、更深、含每页关键事实。
| 特性 | llms.txt | llms-full.txt |
|---|---|---|
| 长度 | 简洁(50-150 行) | 综合(150-500+ 行) |
| 页条目 | 10-30 关键页 | 30-100+ 页 |
| 描述 | 10-30 词 / 条 | 30-100 词 / 条,可含每页关键事实 |
| 受众 | 快 AI 理解 | 深 AI 分析 |
| 区块 | 3-6 区块 | 8-15 区块 |
| 关键事实 | 业务级 | 页面级数据点 |
两者可共存:AI 系统先看 llms.txt,可能加载 llms-full.txt 做深理解。
第一年只写 llms.txt:llms-full.txt 工作量是 llms.txt 的 5-10 倍,且边际收益不清晰。等你的 llms.txt 部署 6 个月后看 AI 引用变化,再决定要不要扩展。多数中小内容方永远不需要 llms-full.txt。
综合评分
llms.txt 维度的总分按 3 个子维度加权:
llms.txt Score = Completeness × 0.40 + Accuracy × 0.35 + Usefulness × 0.25
Completeness(完整度):
- 覆盖所有主要导航区块?
- 最重要 / 高流量页都包括?
- Key Facts 含准确业务数据?
- 含近期 / 更新内容?
Accuracy(准确度):
- 描述准确反映页内容?
- URL 有效指向正确页?
- Key Facts 可验证且当前?
- 业务描述准确?
Usefulness(有用度):
- AI 仅看此文件能理解站目的?
- 描述足够具体区分页面?
- 最值得引用的页被高亮?
- 组织逻辑直观?
5 档评分:
| 状态 | 分数 |
|---|---|
| 不存在 | 0 |
| 存在但格式错误 | 30 |
| 存在格式有效但内容稀少 | 50 |
| 存在有效且覆盖主要内容区 | 70 |
| 完整 + 同时有 llms-full.txt | 90-100 |
目标:第一年到 70+ 分(存在有效且覆盖主要内容区)。
10 条最佳实践
| # | 实践 | 例 |
|---|---|---|
| 1 | 定期更新:周更博客 → llms.txt 月更;季度产品变化 → 每次发布后更新 | 把 llms.txt 加入 release checklist |
| 2 | 领头放最强内容:每区块第一条应是最权威综合页 | Docs 区第一条放最完整 API 文档 |
| 3 | 描述具体:“3,000-word guide to React Server Components with code examples” 远胜 “React guide” | 数字 + 关键词 + 形态 |
| 4 | 含独有差异化:独家数据、原创研究、独有特性在描述和 Key Facts 高亮 | “Our 2026 industry report covering 5,200 respondents” |
| 5 | 保持简洁:< 60 秒可扫完。深度留给 llms-full.txt | 总长度 50-150 行 |
| 6 | 绝对 URL:永远完整 https:// |
不要用 /page-url |
| 7 | 部署后测:上传后验证 https://yourdomain.com/llms.txt 直接可访问无重定向 |
curl + AI 助手测试 |
| 8 | 与 robots.txt 协调:llms.txt 列出的页不能在 robots.txt 封 AI 爬虫 | 双向校对 |
| 9 | 镜像站结构:区块名应大致对应主导航类目 | 不要发明新分类 |
| 10 | 避免敏感页:不含内部工具、admin 面板、敏感页 | 别意外暴露 admin URL |
自动生成 llms.txt 的脚本
如果你的网站有 50+ 页,手动列出所有关键页太慢。下面给一个自动生成脚本(Python):
import re
from urllib.parse import urlparse
# 路径关键词 → 区块映射
SECTION_RULES = {
"Products": ["/pricing", "/feature", "/product", "/solution", "/demo"],
"Resources": ["/blog", "/article", "/resource", "/guide", "/learn", "/docs"],
"Company": ["/about", "/team", "/career", "/contact", "/press", "/partner"],
"Support": ["/help", "/support", "/faq", "/status"],
}
def classify_url(url):
path = urlparse(url).path.lower()
for section, keywords in SECTION_RULES.items():
if any(kw in path for kw in keywords):
return section
return "Main Pages"
# 从 sitemap.xml 读取 URL
# 按区块分组
# 每区块上限 10 条(简版)
# 输出 llms.txt 格式
完整脚本约 60 行 Python:把它加到你的 CI/CD 里,每次内容更新自动重生成 llms.txt。多数 SaaS / 博客站这一步可以自动化。
现在动手做一次"30 分钟部署 llms.txt”
第 1 步:列出 10-20 个关键页(5 分钟)
打开你的 sitemap.xml 或主导航,按下面优先级挑:
- 首页(必含)
- 产品页 / 服务页(必含)
- 定价页(必含)
- About 页(必含)
- 文档 / API 参考(如有)
- Top 5 博客文章(按引用价值挑)
- 联系页
第 2 步:填模板(15 分钟)
把上面的 SaaS 模板拷下来,按你业务改字段。重点改:
- H1 = 你的业务名
- 描述(< 200 字符)= 你做什么 + 给谁 + 关键数字
- 每个区块的页条目(10-30 词描述,含具体数字)
- Key Facts(创立年份 / 总部 / 团队 / 客户 / 关键产品)
- Contact(至少含 email)
第 3 步:上传到根目录(5 分钟)
把文件命名 llms.txt 上传到网站根目录,访问 https://yoursite.com/llms.txt 应该返回 200 + 完整内容。
各 CMS 上传方式:
- WordPress:用 FTP / SSH 直接放在
wp-root/llms.txt - Hugo / Jekyll / Next.js / Astro:放在
static/或public/目录 - Webflow:用 Custom Code 或 Edge Functions
- Shopify:根目录上传需要后台支持,否则用 sub-path
第 4 步:跑 11 项验证 + AI 测试(5 分钟)
# 1. curl 测试
curl -I https://yoursite.com/llms.txt
# 应返回 HTTP 200
# 2. 内容检查
curl -s https://yoursite.com/llms.txt | head -10
# 应看到 H1 + 描述 + 第一个 H2
# 3. AI 测试
# 在 Claude / ChatGPT 输入:
# "请总结一下 https://yoursite.com/llms.txt 文件的内容"
# 看 AI 能否引用文件具体内容
3 个月内能在 GA4 看到 GPTBot / ClaudeBot 访问 /llms.txt = 部署成功。
反话术:服务商常说什么,你应该警惕什么
判定:❌ 把 30 分钟工作包装成"GEO 基础设施服务"。
llms.txt 写作本身是 30 分钟工作量:按本课模板把你的 sitemap 关键页 + 业务描述按规范格式整理就行。服务商收 5000 美元做 llms.txt 是把 30 分钟工作包装成"GEO 基础设施服务"。判别口径:(1)如果服务商承诺"写完 llms.txt 立刻 AI 引用率 +50%",夸大其词,llms.txt 是辅助信号不是引用引擎;(2)如果你需要的是 sitemap 整理 + 业务文档梳理服务,要求服务商按工时 / 内容产出量计价,不是按"llms.txt"打包卖你;(3)多数情况按本课模板自己写 30 分钟搞定,省 5000 美元。
判定:⚠️ 完整版只对部分网站有边际收益。
llms-full.txt 工作量是 llms.txt 的 5-10 倍,但边际收益不清晰。AI 是否真加载 llms-full.txt 做深分析没有公开数据。第一年只写 llms.txt 就够了。等你的 llms.txt 部署 6 个月后看 AI 引用变化,再决定要不要扩展。多数中小内容方永远不需要 llms-full.txt。如果服务商建议同时做两个版本 + 报价是单 llms.txt 的 5-10 倍,他在卖你不需要的工作量。
关键术语表
| 术语 | 解释 | 这一课怎么用 |
|---|---|---|
| llms.txt | 给 AI 看的"网站地图"新基础设施 | 30 分钟部署,< 5% 网站有 |
| llms-full.txt | llms.txt 的完整版(150-500 行) | 第一年不需要,6 个月后再考虑 |
| H1 标题 | 必须文件第一行,业务名 | Critical |
| Blockquote 描述 | < 200 字符,事实,避免营销话 | High |
| Key Facts 区 | 业务关键事实声明 | 减少 AI 幻觉的关键 |
| 早期采用者优势 | 截至 2026 年 < 5% 网站部署 | 显著差异化点 |
| 镜像站结构 | llms.txt 区块名 = 主导航类目 | 不要发明新分类 |
| Claude 公开支持 | Anthropic 声明 Claude web 浏览时检查 llms.txt | 已知支持的 AI 之一 |
本课小结
- llms.txt 是 Jeremy Howard 2024-09 提出的标准:告诉 AI 你网站"最有用的内容是什么”
- 截至 2026 年初不到 5% 的网站部署:是显著早期采用者差异化点
- 完整文件格式:H1 + 描述(< 200 字符)+ 至少 1 个 H2 区块 + 10-30 个页条目 + Key Facts + Contact
- 描述要具体:含数字 + 形态 + 关键词,不要营销话
- 11 项验证:Critical + High 必修,Medium / Low 可逐步补
- 第一年只写 llms.txt:llms-full.txt 边际收益不清晰
- 30 分钟部署:列关键页 + 填模板 + 上传根目录 + 跑验证
完成本课的下一步
1. 跑"30 分钟部署 llms.txt",4 步做完
2. 用 curl + AI 助手测试,确认 AI 能读到你的 llms.txt 内容
3. 把 llms.txt 加入你的 release checklist,产品 / 内容更新时同步更新
4. 不买 5000 美元的 llms.txt 写作服务,这是 30 分钟工作,自己做
下一课预告:第 9 课「完整 GEO 审计案例:Electron Srl 6 个月从 28 分到 86 分」。前 8 课讲完了 6 维评分体系 + llms.txt,下一课用一个真实客户案例(意大利老牌教育设备制造商)演示完整审计流程:8 个 Critical Findings + 三阶段路线图 + ROI 估算 + 教学价值,让你看到"差到极致 → 优秀"的完整路径。
国际生态篇 8/13 完成。如果你部署了 llms.txt,你已经做到了不到 5% 的网站才有的事情。这是单笔投入产出比最高的 GEO 动作之一(30 分钟 vs 多年长尾收益)。