第 5 周 · GEO 基础——AI 如何选择引用你


robots.txt 之外——专门给 AI 看的文件

快速复习:robots.txt 是什么

robots.txt 是放在网站根目录(yoursite.com/robots.txt)的一个纯文本文件,用来告诉所有爬虫"哪些页面可以抓取,哪些不行"。你在浏览器里直接输入 yoursite.com/robots.txt 就能看到它的内容。

第 4 周会详细讲怎么配置它。如果你直接跳到这节课,只需要知道:本课末尾有一份完整的 robots.txt 示例,直接复制粘贴到你网站的根目录就能用。


“开了门”(robots.txt 允许 AI 爬虫)还不够——AI 进来之后,你的网站可能有几十上百个页面,它不知道哪些最重要。

llms.txt 是给 AI 爬虫一份导航图——告诉它"你进来了,这是我网站最重要的内容,按这个顺序看"。


什么是 llms.txt

llms.txt 是一个放在网站根目录的 Markdown 格式文本文件(yoursite.com/llms.txt)。

它的目的是:

  • 向 AI 系统提供网站的结构化概览
  • 标注最重要的内容和它们的优先级
  • 用 AI 能高效解析的格式呈现信息

为什么 Markdown 而不是 XML/HTML

  • AI(大语言模型)天然擅长理解 Markdown——它是训练数据中最常见的格式之一
  • Markdown 比 HTML 更简洁,更少噪音
  • 人也能直接阅读,便于维护

llms.txt 的格式规范

# 网站名称

> 一句话描述你的网站是做什么的

## 核心内容

- [降噪耳机完全指南](https://yoursite.com/headphones/buying-guide): 涵盖降噪原理、选购方法、品牌对比和使用建议的综合指南
- [Sony XM6 vs AirPods Max 2 对比](https://yoursite.com/headphones/xm6-vs-airpods): 2026 年两款旗舰降噪耳机的详细逐项对比评测
- [降噪耳机工作原理](https://yoursite.com/headphones/how-anc-works): 主动降噪和被动降噪的技术解析

## 评测与推荐

- [2026 年最佳降噪耳机推荐](https://yoursite.com/headphones/best-2026): 8 款降噪耳机的实测排名
- [Sony WH-1000XM6 评测](https://yoursite.com/headphones/xm6-review): 30 天使用体验详细评测

## 常见问题

- [降噪耳机 FAQ](https://yoursite.com/headphones/faq): 关于降噪耳机的常见问题解答

## 关于

- [关于作者](https://yoursite.com/about): 作者背景和联系方式

格式要点

  1. # 作为网站标题
  2. > 写一句话描述
  3. ## 分类你的内容——按主题或内容类型分组
  4. 每个链接附简短描述——告诉 AI 这个链接里有什么
  5. 按重要性排序——最重要的内容放在最前面
  6. 只放你希望 AI 引用的页面——不放后台页面、登录页、低质量页面

llms.txt vs robots.txt vs sitemap.xml

文件 给谁看 做什么 格式
robots.txt 所有爬虫 告诉爬虫"能不能进来" 纯文本,规则格式
sitemap.xml 搜索引擎爬虫 列出所有需要索引的页面 XML
llms.txt AI 爬虫 告诉 AI"进来后看什么最有价值" Markdown

三者互补:

  • robots.txt 控制访问权限
  • sitemap.xml 列出完整的页面清单
  • llms.txt 提供策划过的、有优先级的内容导航

完整的 AI 爬虫配置方案

把第 4 周的 robots.txt 配置和本课的 llms.txt 结合起来,形成完整方案:

1. robots.txt(更新版)

# 搜索引擎爬虫
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# AI 搜索爬虫——允许用于搜索引用
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# 所有爬虫的默认规则
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /login/
Disallow: /draft/

# 站点地图
Sitemap: https://yoursite.com/sitemap.xml

2. llms.txt

按上面的格式创建,放在根目录。

3. 页面级 Schema

确保每个页面都有对应的结构化数据(第 4 周已设置)。

三者配合的效果

AI 爬虫访问你的网站
    ↓
robots.txt 说"欢迎进来"
    ↓
AI 发现 llms.txt,获得一份内容导航图
    ↓
AI 按优先级访问你标注的重要页面
    ↓
在页面上,Schema 帮助 AI 快速理解内容类型和关键信息
    ↓
AI 从 H2 段落中提取"答案块"存入索引
    ↓
用户提问时,AI 从索引中找到你的答案块,决定是否引用

如何验证 llms.txt 是否被 AI 读取了

配置好 llms.txt 之后,你可能想知道"AI 爬虫真的来看了吗"?以下是几种验证方法:

方法 1:检查服务器访问日志

如果你有服务器访问权限(VPS 用户),直接查看 access.log 文件,搜索以下 User-Agent 字符串:

  • GPTBot(OpenAI)
  • PerplexityBot
  • ClaudeBot(Anthropic)
  • Google-Extended(Google)

如果看到这些爬虫访问了你的 /llms.txt,说明配置生效了。

注意:静态网站托管(GitHub Pages、Netlify、Vercel)通常不提供原始访问日志,需要通过 Cloudflare(免费版就有)来查看。

方法 2:Cloudflare Analytics

如果你的网站通过 Cloudflare 代理(推荐,第 4 周讲过它的性能作用),在 Cloudflare 控制台的 Analytics → 流量分析中,筛选"机器人流量"类型,可以看到已知 AI 爬虫的访问记录。

Cloudflare 会自动标记主要的 AI 爬虫,通常 llms.txt 部署后 2-4 周会看到这些爬虫的首次访问。

方法 3:间接验证——AI 测试

最简单的验证方式:在 Perplexity 或 Kimi 中搜索你的网站的核心话题,看被引用的是否是 llms.txt 中优先级最高的内容。

如果 AI 开始引用你排在 llms.txt 第一位的内容,说明它读取了你的优先级配置。这不是100% 确定,但是一个很强的信号。


AI 爬虫的经济学——了解但不用深究

一个有趣的背景知识:

不同 AI 爬虫的"爬取-引荐比"差异巨大(Cloudflare 2025-2026 数据):

爬虫 每产生 1 次引荐访问需爬取的页面数
Mistral 22:1(最慷慨)
Microsoft Copilot 33:1
PerplexityBot 111:1
GPTBot 1,276:1
ClaudeBot 23,951:1(最不对等)

这意味着 PerplexityBot 是目前对网站主最"公平"的 AI 爬虫——爬你的内容后最有可能把流量回馈给你。

对你的影响:这不改变你的策略(仍然应该允许所有 AI 爬虫),但解释了为什么 Perplexity 可能是 GEO 优化最容易看到效果的平台。


【可选,有代码基础再看】Speakable Schema——进阶技巧

这部分涉及 HTML 代码,完全可以跳过——先把 llms.txt 和 robots.txt 配置好,那才是最重要的基础。等你熟悉了再回来看这部分。

如果你的内容经常被语音助手和 AI 朗读引用,可以在答案优先段落上添加 Speakable Schema:

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "WebPage",
  "speakable": {
    "@type": "SpeakableSpecification",
    "cssSelector": [".answer-block", ".key-takeaway"]
  }
}
</script>

这告诉 AI:“这些段落特别适合被朗读或直接引用。”

对大多数初学者来说这是可选的进阶操作——先确保基础的 llms.txt 和 Schema 到位。


对第三方平台用户的说明

如果你没有独立网站,无法配置 llms.txt、robots.txt 或 Schema——这些技术配置对你不适用。

但这不代表你完全没有办法。第三方平台(知乎、小红书)上的内容已经在 AI 爬虫的覆盖范围内。你能做的是:

  1. 在知乎完善个人资料——AI 爬虫会读取你的个人简介,一个清晰的专业背景介绍有助于 AI 判断你是可信来源
  2. 在回答中用答案优先格式——这是第 6 周的核心内容,但和 llms.txt 的目标相同:让 AI 更容易提取你的答案
  3. 保持回答的更新日期——知乎显示回答的最后更新时间,AI 会优先引用近期更新的内容
  4. 发布时选择合适的话题标签——知乎的话题标签帮助 AI 将你的内容和正确的话题关联

技术配置层(llms.txt、Schema)是加速器,不是必要条件。高质量内容 + 正确的平台策略,没有技术配置同样可以获得 AI 引用。


常见误区

误区 1:“配置了 llms.txt 就能立刻被 AI 引用”

不是。llms.txt 是"告诉 AI 看什么"的导航,但 AI 最终引用什么取决于内容质量。llms.txt 让 AI 更高效地找到你的重要内容,但如果内容本身不够好(不是答案优先、没有数据、不够权威),AI 仍然不会引用。先把内容质量做好,再配置 llms.txt。

误区 2:“robots.txt 拒绝了某些 AI 爬虫,是不是保护了我的内容版权?”

拒绝 AI 爬虫不能保护内容版权,它只是让你的内容不被那个 AI 使用——同时也失去了被那个 AI 引用的机会。内容版权和 AI 使用是复杂的法律问题,robots.txt 不是解决方案。除非你有充分的理由(商业机密、付费内容),否则建议允许所有主流 AI 爬虫。

误区 3:“llms.txt 格式不对会怎样?”

不会有惩罚。llms.txt 是一个新兴标准,还在演化中。格式"错了"只是可能让 AI 解析效率低,不会导致任何负面后果。重要的是把核心内容列出来,格式次之。


本课小结

  1. llms.txt 是给 AI 爬虫的导航图——Markdown 格式,放在网站根目录,告诉 AI 什么内容最重要
  2. 按重要性排序你的内容,每个链接附简短描述说明内容价值
  3. robots.txt(权限)+ sitemap.xml(完整列表)+ llms.txt(策划导航)三者互补
  4. PerplexityBot 是爬取-引荐比最好的 AI 爬虫——GEO 优化最容易在 Perplexity 上看到效果
  5. 第三方平台用户:没有 llms.txt,但个人资料完善 + 答案优先格式 + 更新内容同样能提升 AI 引用率
  6. llms.txt 是加速器,不是必要条件——先把内容质量做好

下一课:GEO 基线测试——在开始优化之前,先搞清楚你目前在 AI 搜索中的可见性现状。