上一课你解决了什么

如果你做完了国际 §7 的"5 平台 baseline 部署 + 选定 #1 平台深耕",你的网站对 5 大 AI 引擎的基础可见性已建立。

但还有一件事:AI 怎么快速理解你的网站结构

打开 ChatGPT / Claude / Perplexity 任何一个,问"yoursite.com 是做什么的?最重要的 3 个页面是哪些?"

3 种结果:

  • AI 准确答出 → 你的网站对 AI 的"自我描述"足够清晰
  • AI 答得模糊或错误 → AI 只能从你的爬取数据推断,无显式信号
  • AI 说"找不到信息" → 你的网站对 AI 完全不可见(或被 robots.txt 封了)

多数小网站测出第 2 种或第 3 种结果。原因不是内容差,而是没有给 AI 一份"你最重要的内容是什么"的显式说明

llms.txt 就是这份显式说明:一份让 AI 30 秒内理解你网站的"机器可读 + 人类可读"摘要。

这一课讲清楚 5 件事:

  1. llms.txt 是什么 + 由谁提出 + 为什么重要
  2. 完整规范 + 4 个区块模板:直接拷过去改
  3. 11 项验证检查:部署前必跑
  4. llms.txt vs llms-full.txt 区别:什么时候只写简版,什么时候写完整版
  5. 30 分钟部署流程:从 0 到上线

学完你能用 30 分钟部署一份合规 llms.txt,做到这一步你已经在不到 5% 的网站之列。


llms.txt 是什么 + 由谁提出

llms.txtJeremy Howard(fast.ai 创始人)2024 年 9 月提出的标准。位于网站根目录:

https://yourdomain.com/llms.txt

它给 AI 系统提供站结构、内容、关键信息的结构化、机器可读、人类可读摘要。

和 robots.txt / sitemap.xml 三者关系

3 个根目录文件的分工
robots.txt
告诉爬虫:不能访问什么|内容:Allow / Disallow / User-agent 简单规则|历史:1994 年提出,Web 标准|AI 支持:所有 AI 爬虫强制遵守
访问控制
sitemap.xml
告诉爬虫:网站所有页面在哪|内容:XML 列表|历史:2005 年提出,Web 标准|AI 支持:所有 AI 爬虫读取
完整页面索引
llms.txt
告诉 AI:最有用的内容是什么|内容:Markdown 结构化文档(标题 + 描述 + 链接)|历史:2024 年 9 月提出,社区提案|AI 支持:Claude 公开支持,其他 AI 部分支持
AI 优先消费指南

3 个文件互补:robots.txt 限制访问 / sitemap.xml 列出所有页面 / llms.txt 显式告诉 AI 哪些页最重要。

截至 2026 年初的关键数据

  • 不到 5% 的网站部署了 llms.txt,是早期采用者差异化点
  • Claude 公开声明支持读取 llms.txt 做网站理解
  • ChatGPT / Perplexity / Gemini 没有公开承诺支持,但行业观察显示部分 llms.txt 内容被引用

为什么 llms.txt 重要:5 个好处

AI 模型在处理网站时面对一个根本挑战:判断哪些页最重要、站讲什么、内容怎么组织,通常通过爬许多页推断结构。llms.txt 用一个文件显式提供这些信息。

# 好处 量化表现
1 更快 AI 理解 AI 从单文件理解站目的和结构,无需爬十几页
2 掌控叙事 你选 AI 看哪些页和事实,塑造它如何呈现你的品牌
3 更高引用准确性 咨询 llms.txt 的 AI 系统能引用每个话题的正确权威页
4 减少错表 关键事实(定价、特性、位置)显式声明,减少 AI 关于业务的幻觉
5 早期采用者优势 截至 2026 年初 < 5% 的网站有 llms.txt,是显著差异化点

最被低估的好处是 #4 减少错表:AI 在不知道你公司确切信息时会"幻觉"出错误数据(如把"创立 2018"说成"创立 2015",把"100 人团队"说成"几百人团队")。llms.txt 的 Key Facts 区显式声明这些数据,AI 引用时直接拿这份权威源。


完整文件格式

llms.txt 是一份纯 Markdown 文件,任何文本编辑器都能写。

基础结构

# [站名]

> [一句描述:站/业务做什么。< 200 字符]

## Docs

- [Page Title](https://example.com/page-url): 简洁描述本页覆盖什么、为什么重要。
- [Another Page](https://example.com/another-page): 描述。

## Optional

- [Less Critical Page](https://example.com/optional-page): 描述。

详细规则

1. 标题(必需)

# 站名
  • 必须是文件第一行
  • 应是官方业务 / 站名
  • H1 格式(单 #

2. 描述(必需)

> 简短描述
  • 紧跟在标题后
  • Markdown blockquote(>
  • < 200 字符
  • 清晰陈述业务做什么、给谁
  • 避免营销话:事实、具体

3. 主区块(至少一个,必需)

H2(##)按类目组织页。常见区块名:

区块 用途 例子
## Docs 主文档或关键页 产品页、服务描述、核心内容
## Optional 值得知道的次要页 博客文章、补充资源
## API API 文档 API 参考、认证指南
## Blog 博客或新闻 近期 / 热门文章
## Products 产品目录 产品页、定价
## Services 服务 服务描述、流程页
## About 公司信息 About 页、团队、使命
## Resources 教育 / 参考内容 指南、教程、白皮书
## Legal 法律文档 TOS、隐私政策
## Contact 联系信息 联系页、支持渠道

4. 页面条目(必需)

每条格式:

- [Page Title](URL): 页面内容描述

规则:

  • 标题:实际页标题或清晰描述性标题
  • URL:完整绝对 URL(不是相对路径)
  • 描述:10-30 词描述本页内容。具体说明可获信息
  • 顺序:每区块内按重要性列
  • 限制:总共 10-30 条。优先最权威、有用的页

5. Key Facts 区(推荐)

## Key Facts
- 创立于 [年份],由 [创始人]
- 总部:[城市,国家]
- 服务 [X] 客户/用户在 [Y] 国家
- 关键产品:[A]、[B]、[C]
- 行业:[分类]

6. Contact 区(推荐)

## Contact
- Website: https://example.com
- Email: hello@example.com
- Support: support@example.com
- Phone: +1-555-123-4567
- Address: 123 Main St, City, State, ZIP

描述写得好 vs 写得差

描述部分是 llms.txt 最容易踩坑的地方:多数人写成营销话,AI 拿不到具体信息。

✅ 好的描述(具体、信息丰富)

  • “Explains the three pricing tiers (Free, Pro, Enterprise) with feature comparison and annual/monthly costs.”
  • “Details the company’s founding in 2018, team of 45 employees, and office locations in Austin and London.”
  • “Covers integration setup for Slack, Salesforce, and HubSpot with step-by-step guides and API endpoints.”

❌ 差的描述(营销腔、模糊)

  • “Our amazing pricing page!"(营销话,无具体信息)
  • “Learn more about our company."(太模糊)
  • “Click here for details."(无描述性)

判别公式:如果 AI 仅读你的描述就能回答用户"这页讲什么”,✅ 好。如果 AI 仍需要点击进去才知道,❌ 差。


完整模板示例:SaaS 站

下面给一份典型 B2B SaaS 站的完整 llms.txt 模板。直接拷过去改字段。

# Acme Analytics

> B2B analytics platform for product teams. Tracks user behavior across web and mobile, provides cohort analysis and funnel reporting. Founded 2019, serving 1,200+ companies in 40 countries.

## Products

- [Product Overview](https://acmeanalytics.com/product): Lists all 4 product modules (Events, Funnels, Cohorts, Reports) with feature comparison and use cases.
- [Pricing](https://acmeanalytics.com/pricing): 3 pricing tiers (Free $0/mo, Pro $99/mo, Enterprise custom) with feature matrix and event volume limits.
- [Integrations](https://acmeanalytics.com/integrations): Setup guides for 30+ integrations (Segment, Mixpanel migration, Slack, HubSpot, Salesforce, Zapier).

## Documentation

- [API Reference](https://docs.acmeanalytics.com/api): Complete REST API documentation with authentication, rate limits, and 50+ endpoint examples.
- [Quickstart Guide](https://docs.acmeanalytics.com/quickstart): 15-minute setup tutorial from account creation to first event tracked.
- [SDK Libraries](https://docs.acmeanalytics.com/sdks): Official SDKs for JavaScript, Python, Ruby, Go, iOS, Android with installation instructions.

## Blog

- [Cohort Analysis Best Practices 2026](https://acmeanalytics.com/blog/cohort-analysis-2026): 3,200-word guide to cohort analysis with 12 real examples and SQL templates.
- [Why Funnel Drop-off Analysis Matters](https://acmeanalytics.com/blog/funnel-dropoff): Case study showing 23% conversion lift through funnel optimization.

## About

- [About Us](https://acmeanalytics.com/about): Company history (founded 2019), team of 35 (15 engineers), Series A funded by Sequoia.
- [Team](https://acmeanalytics.com/team): Profiles of 8 leadership members with backgrounds at Google, Meta, Stripe.

## Key Facts

- Founded: 2019 by Jane Doe (CEO, ex-Stripe) and John Smith (CTO, ex-Google)
- Headquarters: San Francisco, California, USA
- Team: 35 employees (15 engineers, 10 sales/marketing, 10 operations)
- Customers: 1,200+ companies in 40 countries
- Funding: Series A, $12M led by Sequoia Capital (2024)
- Product Categories: Event tracking, Funnels, Cohorts, Reports
- Industry: B2B SaaS, Product Analytics
- Pricing: Free tier available, Pro starts at $99/month, Enterprise custom

## Contact

- Website: https://acmeanalytics.com
- Email: hello@acmeanalytics.com
- Support: support@acmeanalytics.com
- Sales: sales@acmeanalytics.com
- Twitter: https://twitter.com/acmeanalytics
- LinkedIn: https://www.linkedin.com/company/acmeanalytics

这份模板的特点

  • 6 个区块覆盖典型 B2B SaaS 全部需求
  • 描述都是 10-30 词、含具体数字和信息
  • Key Facts 含 8 条业务事实,AI 引用时直接拿权威源
  • Contact 含 6 个联系渠道(email + sales + Twitter + LinkedIn)

直接复制 → 改字段 → 上传到根目录 = 30 分钟搞定。


11 项验证检查

部署前必跑的 11 项检查。

# 元素 检查 缺失严重度
1 H1 标题 存在,匹配业务名 Critical
2 Blockquote 描述 存在,<200 字符,事实 High
3 至少一个 H2 区块 存在 Critical
4 含 URL 的页条目 至少 5 条 High
5 URL 是绝对的 全用完整 https:// High
6 URL 有效 全部返回 200 Medium
7 描述存在 每个条目含冒号后描述 Medium
8 Key Facts 区块 存在含业务信息 Medium
9 Contact 区块 存在至少含邮件 Low
10 长度合理 30-200 行 Low
11 Markdown 无错 全文格式正确 Medium

Critical 项必修:H1 和至少一个 H2 缺失 = 整个文件 AI 无法解析。High 项尽量修:影响 AI 理解效果。Medium / Low 项可逐步补

自动跑 11 项检查的脚本

#!/bin/bash
URL="https://yoursite.com/llms.txt"
content=$(curl -s "$URL")

# Critical 检查
echo "$content" | head -1 | grep -q "^# " && echo "✓ #1 H1 OK" || echo "✗ #1 缺 H1"
echo "$content" | grep -q "^## " && echo "✓ #3 H2 OK" || echo "✗ #3 缺 H2"

# High 检查
desc_line=$(echo "$content" | grep "^> " | head -1)
desc_len=${#desc_line}
[ $desc_len -lt 200 ] && [ $desc_len -gt 0 ] && echo "✓ #2 描述 OK ($desc_len 字符)" || echo "✗ #2 描述问题"

url_count=$(echo "$content" | grep -c "https://")
[ $url_count -ge 5 ] && echo "✓ #4 URL 数量 OK ($url_count 条)" || echo "✗ #4 URL 不足 5 条"

abs_count=$(echo "$content" | grep -c "(https://")
rel_count=$(echo "$content" | grep -c "(/")
[ $rel_count -eq 0 ] && echo "✓ #5 全用绝对 URL" || echo "✗ #5 含 $rel_count 个相对 URL"

# Low 检查
line_count=$(echo "$content" | wc -l)
[ $line_count -ge 30 ] && [ $line_count -le 200 ] && echo "✓ #10 长度合理 ($line_count 行)" || echo "✗ #10 长度异常 ($line_count 行)"

部署完跑这个脚本,5 秒拿到完整 11 项报告。


llms.txt vs llms-full.txt:什么时候写完整版

llms-full.txt 是 llms.txt 的扩展版:更长、更深、含每页关键事实。

特性 llms.txt llms-full.txt
长度 简洁(50-150 行) 综合(150-500+ 行)
页条目 10-30 关键页 30-100+ 页
描述 10-30 词 / 条 30-100 词 / 条,可含每页关键事实
受众 快 AI 理解 深 AI 分析
区块 3-6 区块 8-15 区块
关键事实 业务级 页面级数据点

两者可共存:AI 系统先看 llms.txt,可能加载 llms-full.txt 做深理解。

第一年只写 llms.txt:llms-full.txt 工作量是 llms.txt 的 5-10 倍,且边际收益不清晰。等你的 llms.txt 部署 6 个月后看 AI 引用变化,再决定要不要扩展。多数中小内容方永远不需要 llms-full.txt。


综合评分

llms.txt 维度的总分按 3 个子维度加权:

llms.txt Score = Completeness × 0.40 + Accuracy × 0.35 + Usefulness × 0.25

Completeness(完整度)

  • 覆盖所有主要导航区块?
  • 最重要 / 高流量页都包括?
  • Key Facts 含准确业务数据?
  • 含近期 / 更新内容?

Accuracy(准确度)

  • 描述准确反映页内容?
  • URL 有效指向正确页?
  • Key Facts 可验证且当前?
  • 业务描述准确?

Usefulness(有用度)

  • AI 仅看此文件能理解站目的?
  • 描述足够具体区分页面?
  • 最值得引用的页被高亮?
  • 组织逻辑直观?

5 档评分

状态 分数
不存在 0
存在但格式错误 30
存在格式有效但内容稀少 50
存在有效且覆盖主要内容区 70
完整 + 同时有 llms-full.txt 90-100

目标:第一年到 70+ 分(存在有效且覆盖主要内容区)。


10 条最佳实践

# 实践
1 定期更新:周更博客 → llms.txt 月更;季度产品变化 → 每次发布后更新 把 llms.txt 加入 release checklist
2 领头放最强内容:每区块第一条应是最权威综合页 Docs 区第一条放最完整 API 文档
3 描述具体:“3,000-word guide to React Server Components with code examples” 远胜 “React guide” 数字 + 关键词 + 形态
4 含独有差异化:独家数据、原创研究、独有特性在描述和 Key Facts 高亮 “Our 2026 industry report covering 5,200 respondents”
5 保持简洁:< 60 秒可扫完。深度留给 llms-full.txt 总长度 50-150 行
6 绝对 URL:永远完整 https:// 不要用 /page-url
7 部署后测:上传后验证 https://yourdomain.com/llms.txt 直接可访问无重定向 curl + AI 助手测试
8 与 robots.txt 协调:llms.txt 列出的页不能在 robots.txt 封 AI 爬虫 双向校对
9 镜像站结构:区块名应大致对应主导航类目 不要发明新分类
10 避免敏感页:不含内部工具、admin 面板、敏感页 别意外暴露 admin URL

自动生成 llms.txt 的脚本

如果你的网站有 50+ 页,手动列出所有关键页太慢。下面给一个自动生成脚本(Python):

import re
from urllib.parse import urlparse

# 路径关键词 → 区块映射
SECTION_RULES = {
    "Products": ["/pricing", "/feature", "/product", "/solution", "/demo"],
    "Resources": ["/blog", "/article", "/resource", "/guide", "/learn", "/docs"],
    "Company": ["/about", "/team", "/career", "/contact", "/press", "/partner"],
    "Support": ["/help", "/support", "/faq", "/status"],
}

def classify_url(url):
    path = urlparse(url).path.lower()
    for section, keywords in SECTION_RULES.items():
        if any(kw in path for kw in keywords):
            return section
    return "Main Pages"

# 从 sitemap.xml 读取 URL
# 按区块分组
# 每区块上限 10 条(简版)
# 输出 llms.txt 格式

完整脚本约 60 行 Python:把它加到你的 CI/CD 里,每次内容更新自动重生成 llms.txt。多数 SaaS / 博客站这一步可以自动化。


现在动手做一次"30 分钟部署 llms.txt”

动手 30 分钟 不要等理论讲完,按下面 4 步做完,今天就能让你的网站进入不到 5% 的 llms.txt 部署者之列。

第 1 步:列出 10-20 个关键页(5 分钟)

打开你的 sitemap.xml 或主导航,按下面优先级挑:

  • 首页(必含)
  • 产品页 / 服务页(必含)
  • 定价页(必含)
  • About 页(必含)
  • 文档 / API 参考(如有)
  • Top 5 博客文章(按引用价值挑)
  • 联系页

第 2 步:填模板(15 分钟)

把上面的 SaaS 模板拷下来,按你业务改字段。重点改:

  • H1 = 你的业务名
  • 描述(< 200 字符)= 你做什么 + 给谁 + 关键数字
  • 每个区块的页条目(10-30 词描述,含具体数字)
  • Key Facts(创立年份 / 总部 / 团队 / 客户 / 关键产品)
  • Contact(至少含 email)

第 3 步:上传到根目录(5 分钟)

把文件命名 llms.txt 上传到网站根目录,访问 https://yoursite.com/llms.txt 应该返回 200 + 完整内容。

各 CMS 上传方式:

  • WordPress:用 FTP / SSH 直接放在 wp-root/llms.txt
  • Hugo / Jekyll / Next.js / Astro:放在 static/public/ 目录
  • Webflow:用 Custom Code 或 Edge Functions
  • Shopify:根目录上传需要后台支持,否则用 sub-path

第 4 步:跑 11 项验证 + AI 测试(5 分钟)

# 1. curl 测试
curl -I https://yoursite.com/llms.txt
# 应返回 HTTP 200

# 2. 内容检查
curl -s https://yoursite.com/llms.txt | head -10
# 应看到 H1 + 描述 + 第一个 H2

# 3. AI 测试
# 在 Claude / ChatGPT 输入:
# "请总结一下 https://yoursite.com/llms.txt 文件的内容"
# 看 AI 能否引用文件具体内容

3 个月内能在 GA4 看到 GPTBot / ClaudeBot 访问 /llms.txt = 部署成功。


反话术:服务商常说什么,你应该警惕什么

反话术 #1:写一份完整 llms.txt 收 5000 美元
判定:❌ 把 30 分钟工作包装成"GEO 基础设施服务"。
llms.txt 写作本身是 30 分钟工作量:按本课模板把你的 sitemap 关键页 + 业务描述按规范格式整理就行。服务商收 5000 美元做 llms.txt 是把 30 分钟工作包装成"GEO 基础设施服务"。判别口径:(1)如果服务商承诺"写完 llms.txt 立刻 AI 引用率 +50%",夸大其词,llms.txt 是辅助信号不是引用引擎;(2)如果你需要的是 sitemap 整理 + 业务文档梳理服务,要求服务商按工时 / 内容产出量计价,不是按"llms.txt"打包卖你;(3)多数情况按本课模板自己写 30 分钟搞定,省 5000 美元。
反话术 #2:必须同时部署 llms.txt + llms-full.txt 才有效
判定:⚠️ 完整版只对部分网站有边际收益。
llms-full.txt 工作量是 llms.txt 的 5-10 倍,但边际收益不清晰。AI 是否真加载 llms-full.txt 做深分析没有公开数据。第一年只写 llms.txt 就够了。等你的 llms.txt 部署 6 个月后看 AI 引用变化,再决定要不要扩展。多数中小内容方永远不需要 llms-full.txt。如果服务商建议同时做两个版本 + 报价是单 llms.txt 的 5-10 倍,他在卖你不需要的工作量。

关键术语表

术语 解释 这一课怎么用
llms.txt 给 AI 看的"网站地图"新基础设施 30 分钟部署,< 5% 网站有
llms-full.txt llms.txt 的完整版(150-500 行) 第一年不需要,6 个月后再考虑
H1 标题 必须文件第一行,业务名 Critical
Blockquote 描述 < 200 字符,事实,避免营销话 High
Key Facts 区 业务关键事实声明 减少 AI 幻觉的关键
早期采用者优势 截至 2026 年 < 5% 网站部署 显著差异化点
镜像站结构 llms.txt 区块名 = 主导航类目 不要发明新分类
Claude 公开支持 Anthropic 声明 Claude web 浏览时检查 llms.txt 已知支持的 AI 之一

本课小结

  1. llms.txt 是 Jeremy Howard 2024-09 提出的标准:告诉 AI 你网站"最有用的内容是什么”
  2. 截至 2026 年初不到 5% 的网站部署:是显著早期采用者差异化点
  3. 完整文件格式:H1 + 描述(< 200 字符)+ 至少 1 个 H2 区块 + 10-30 个页条目 + Key Facts + Contact
  4. 描述要具体:含数字 + 形态 + 关键词,不要营销话
  5. 11 项验证:Critical + High 必修,Medium / Low 可逐步补
  6. 第一年只写 llms.txt:llms-full.txt 边际收益不清晰
  7. 30 分钟部署:列关键页 + 填模板 + 上传根目录 + 跑验证

完成本课的下一步

立即去做(30 分钟)
1. 跑"30 分钟部署 llms.txt",4 步做完
2. 用 curl + AI 助手测试,确认 AI 能读到你的 llms.txt 内容
3. 把 llms.txt 加入你的 release checklist,产品 / 内容更新时同步更新
4. 不买 5000 美元的 llms.txt 写作服务,这是 30 分钟工作,自己做

下一课预告:第 9 课「完整 GEO 审计案例:Electron Srl 6 个月从 28 分到 86 分」。前 8 课讲完了 6 维评分体系 + llms.txt,下一课用一个真实客户案例(意大利老牌教育设备制造商)演示完整审计流程:8 个 Critical Findings + 三阶段路线图 + ROI 估算 + 教学价值,让你看到"差到极致 → 优秀"的完整路径。

国际生态篇 8/13 完成。如果你部署了 llms.txt,你已经做到了不到 5% 的网站才有的事情。这是单笔投入产出比最高的 GEO 动作之一(30 分钟 vs 多年长尾收益)。

← 返回国际生态篇目录