什么是 llms.txt

llms.txt 是由 Answer.AI 联合创始人 Jeremy Howard 在 2024 年 9 月提出的标准提案。它的核心理念:为 AI 大模型提供一个结构化的网站内容导航,让 LLM 在推理阶段更高效地理解和使用你的网站内容。

简单类比:

文件 服务对象 功能
robots.txt 搜索引擎爬虫 控制哪些页面可以被抓取
sitemap.xml 搜索引擎 列出所有页面及更新时间
llms.txt AI 大模型 提供结构化内容摘要和优先级导航

为什么需要 llms.txt

AI 爬虫(GPTBot、ClaudeBot、PerplexityBot)在抓取网站时面临两个问题:

  1. HTML 噪音太多:导航栏、广告、脚本占据大量空间,核心内容被淹没
  2. 上下文窗口有限:LLM 不能一次读完你整个网站,需要知道"哪些最重要"

llms.txt 解决的就是这个问题——给 AI 一份"导读指南"。

llms.txt 格式规范

文件位于 https://你的域名/llms.txt,使用 Markdown 格式:

# 网站名称

> 一句话描述网站的核心内容

## 核心内容
- [页面标题](https://url): 一行描述这个页面讲什么
- [另一个页面](https://url): 描述

## 次要内容
- [链接](https://url): 描述

## Optional
- [不太重要的内容](https://url): 描述

格式要点

  1. H1 标题:网站或项目名称(必填)
  2. 引用块 >:简短描述网站(推荐)
  3. H2 章节:按主题分组内容
  4. 列表项:每项一个链接 + 冒号 + 描述
  5. Optional 章节:标记为可选的次要内容,LLM 在 context 不足时可跳过

配合 robots.txt 使用

llms.txt 提供内容导航,robots.txt 控制访问权限。两者配合的完整链路:

AI 爬虫访问你的网站
    ↓
robots.txt 说"欢迎进来"(Allow: /)
    ↓
AI 发现 llms.txt,获得一份内容导航图
    ↓
AI 按优先级访问标注的重要页面
    ↓
每个页面都有 Schema 帮助理解内容类型

robots.txt 配置示例:

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Sitemap: https://你的域名/sitemap.xml

实战:优先级设计

一个关键决策:把什么放在 llms.txt 的最前面?

AI 的 context window 有限。如果 llms.txt 很长,AI 可能只读前半部分。所以你需要把差异化价值最高的内容放在最前面,不是按网站导航顺序排列。

例如,一个 SEO+GEO 课程网站的 llms.txt 应该先放 GEO 专题(独特价值),而不是从 SEO 基础开始(到处都有)。

哪些网站应该做 llms.txt

  • 内容型网站(博客、课程、文档)→ 强烈推荐
  • 产品网站(SaaS、工具)→ 推荐,帮助 AI 理解产品功能
  • 电商网站 → 收益有限,AI 通常不引用产品页面
  • 个人作品集 → 可以做,成本低

进一步学习

llms.txt 只是 GEO 技术基础设施的一部分。完整的 AI 爬虫配置策略(robots.txt + sitemap.xml + llms.txt + Schema 的协同)在 SEO+GEO 课程第 5 周第 2 课 中有详细讲解。

开始免费学习 →