什么是 llms.txt
llms.txt 是由 Answer.AI 联合创始人 Jeremy Howard 在 2024 年 9 月提出的标准提案。它的核心理念:为 AI 大模型提供一个结构化的网站内容导航,让 LLM 在推理阶段更高效地理解和使用你的网站内容。
简单类比:
| 文件 | 服务对象 | 功能 |
|---|---|---|
| robots.txt | 搜索引擎爬虫 | 控制哪些页面可以被抓取 |
| sitemap.xml | 搜索引擎 | 列出所有页面及更新时间 |
| llms.txt | AI 大模型 | 提供结构化内容摘要和优先级导航 |
为什么需要 llms.txt
AI 爬虫(GPTBot、ClaudeBot、PerplexityBot)在抓取网站时面临两个问题:
- HTML 噪音太多:导航栏、广告、脚本占据大量空间,核心内容被淹没
- 上下文窗口有限:LLM 不能一次读完你整个网站,需要知道"哪些最重要"
llms.txt 解决的就是这个问题——给 AI 一份"导读指南"。
llms.txt 格式规范
文件位于 https://你的域名/llms.txt,使用 Markdown 格式:
# 网站名称
> 一句话描述网站的核心内容
## 核心内容
- [页面标题](https://url): 一行描述这个页面讲什么
- [另一个页面](https://url): 描述
## 次要内容
- [链接](https://url): 描述
## Optional
- [不太重要的内容](https://url): 描述
格式要点
- H1 标题:网站或项目名称(必填)
- 引用块
>:简短描述网站(推荐) - H2 章节:按主题分组内容
- 列表项:每项一个链接 + 冒号 + 描述
- Optional 章节:标记为可选的次要内容,LLM 在 context 不足时可跳过
配合 robots.txt 使用
llms.txt 提供内容导航,robots.txt 控制访问权限。两者配合的完整链路:
AI 爬虫访问你的网站
↓
robots.txt 说"欢迎进来"(Allow: /)
↓
AI 发现 llms.txt,获得一份内容导航图
↓
AI 按优先级访问标注的重要页面
↓
每个页面都有 Schema 帮助理解内容类型
robots.txt 配置示例:
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://你的域名/sitemap.xml
实战:优先级设计
一个关键决策:把什么放在 llms.txt 的最前面?
AI 的 context window 有限。如果 llms.txt 很长,AI 可能只读前半部分。所以你需要把差异化价值最高的内容放在最前面,不是按网站导航顺序排列。
例如,一个 SEO+GEO 课程网站的 llms.txt 应该先放 GEO 专题(独特价值),而不是从 SEO 基础开始(到处都有)。
哪些网站应该做 llms.txt
- 内容型网站(博客、课程、文档)→ 强烈推荐
- 产品网站(SaaS、工具)→ 推荐,帮助 AI 理解产品功能
- 电商网站 → 收益有限,AI 通常不引用产品页面
- 个人作品集 → 可以做,成本低
进一步学习
llms.txt 只是 GEO 技术基础设施的一部分。完整的 AI 爬虫配置策略(robots.txt + sitemap.xml + llms.txt + Schema 的协同)在 SEO+GEO 课程第 5 周第 2 课 中有详细讲解。
- llms.txt 官方规范
- 本站的 llms.txt 示例(45KB,可作为参考)