第 5 周 · GEO 基础——AI 如何选择引用你
robots.txt 之外——专门给 AI 看的文件
快速复习:robots.txt 是什么
robots.txt 是放在网站根目录(yoursite.com/robots.txt)的一个纯文本文件,用来告诉所有爬虫"哪些页面可以抓取,哪些不行"。你在浏览器里直接输入 yoursite.com/robots.txt 就能看到它的内容。
第 4 周会详细讲怎么配置它。如果你直接跳到这节课,只需要知道:本课末尾有一份完整的 robots.txt 示例,直接复制粘贴到你网站的根目录就能用。
“开了门”(robots.txt 允许 AI 爬虫)还不够——AI 进来之后,你的网站可能有几十上百个页面,它不知道哪些最重要。
llms.txt 是给 AI 爬虫一份导航图——告诉它"你进来了,这是我网站最重要的内容,按这个顺序看"。
什么是 llms.txt
llms.txt 是一个放在网站根目录的 Markdown 格式文本文件(yoursite.com/llms.txt)。
它的目的是:
- 向 AI 系统提供网站的结构化概览
- 标注最重要的内容和它们的优先级
- 用 AI 能高效解析的格式呈现信息
为什么 Markdown 而不是 XML/HTML
- AI(大语言模型)天然擅长理解 Markdown——它是训练数据中最常见的格式之一
- Markdown 比 HTML 更简洁,更少噪音
- 人也能直接阅读,便于维护
llms.txt 的格式规范
# 网站名称
> 一句话描述你的网站是做什么的
## 核心内容
- [降噪耳机完全指南](https://yoursite.com/headphones/buying-guide): 涵盖降噪原理、选购方法、品牌对比和使用建议的综合指南
- [Sony XM6 vs AirPods Max 2 对比](https://yoursite.com/headphones/xm6-vs-airpods): 2026 年两款旗舰降噪耳机的详细逐项对比评测
- [降噪耳机工作原理](https://yoursite.com/headphones/how-anc-works): 主动降噪和被动降噪的技术解析
## 评测与推荐
- [2026 年最佳降噪耳机推荐](https://yoursite.com/headphones/best-2026): 8 款降噪耳机的实测排名
- [Sony WH-1000XM6 评测](https://yoursite.com/headphones/xm6-review): 30 天使用体验详细评测
## 常见问题
- [降噪耳机 FAQ](https://yoursite.com/headphones/faq): 关于降噪耳机的常见问题解答
## 关于
- [关于作者](https://yoursite.com/about): 作者背景和联系方式
格式要点
- 用
#作为网站标题 - 用
>写一句话描述 - 用
##分类你的内容——按主题或内容类型分组 - 每个链接附简短描述——告诉 AI 这个链接里有什么
- 按重要性排序——最重要的内容放在最前面
- 只放你希望 AI 引用的页面——不放后台页面、登录页、低质量页面
llms.txt vs robots.txt vs sitemap.xml
| 文件 | 给谁看 | 做什么 | 格式 |
|---|---|---|---|
| robots.txt | 所有爬虫 | 告诉爬虫"能不能进来" | 纯文本,规则格式 |
| sitemap.xml | 搜索引擎爬虫 | 列出所有需要索引的页面 | XML |
| llms.txt | AI 爬虫 | 告诉 AI"进来后看什么最有价值" | Markdown |
三者互补:
- robots.txt 控制访问权限
- sitemap.xml 列出完整的页面清单
- llms.txt 提供策划过的、有优先级的内容导航
完整的 AI 爬虫配置方案
把第 4 周的 robots.txt 配置和本课的 llms.txt 结合起来,形成完整方案:
1. robots.txt(更新版)
# 搜索引擎爬虫
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# AI 搜索爬虫——允许用于搜索引用
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
# 所有爬虫的默认规则
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /login/
Disallow: /draft/
# 站点地图
Sitemap: https://yoursite.com/sitemap.xml
2. llms.txt
按上面的格式创建,放在根目录。
3. 页面级 Schema
确保每个页面都有对应的结构化数据(第 4 周已设置)。
三者配合的效果
AI 爬虫访问你的网站
↓
robots.txt 说"欢迎进来"
↓
AI 发现 llms.txt,获得一份内容导航图
↓
AI 按优先级访问你标注的重要页面
↓
在页面上,Schema 帮助 AI 快速理解内容类型和关键信息
↓
AI 从 H2 段落中提取"答案块"存入索引
↓
用户提问时,AI 从索引中找到你的答案块,决定是否引用
如何验证 llms.txt 是否被 AI 读取了
配置好 llms.txt 之后,你可能想知道"AI 爬虫真的来看了吗"?以下是几种验证方法:
方法 1:检查服务器访问日志
如果你有服务器访问权限(VPS 用户),直接查看 access.log 文件,搜索以下 User-Agent 字符串:
GPTBot(OpenAI)PerplexityBotClaudeBot(Anthropic)Google-Extended(Google)
如果看到这些爬虫访问了你的 /llms.txt,说明配置生效了。
注意:静态网站托管(GitHub Pages、Netlify、Vercel)通常不提供原始访问日志,需要通过 Cloudflare(免费版就有)来查看。
方法 2:Cloudflare Analytics
如果你的网站通过 Cloudflare 代理(推荐,第 4 周讲过它的性能作用),在 Cloudflare 控制台的 Analytics → 流量分析中,筛选"机器人流量"类型,可以看到已知 AI 爬虫的访问记录。
Cloudflare 会自动标记主要的 AI 爬虫,通常 llms.txt 部署后 2-4 周会看到这些爬虫的首次访问。
方法 3:间接验证——AI 测试
最简单的验证方式:在 Perplexity 或 Kimi 中搜索你的网站的核心话题,看被引用的是否是 llms.txt 中优先级最高的内容。
如果 AI 开始引用你排在 llms.txt 第一位的内容,说明它读取了你的优先级配置。这不是100% 确定,但是一个很强的信号。
AI 爬虫的经济学——了解但不用深究
一个有趣的背景知识:
不同 AI 爬虫的"爬取-引荐比"差异巨大(Cloudflare 2025-2026 数据):
| 爬虫 | 每产生 1 次引荐访问需爬取的页面数 |
|---|---|
| Mistral | 22:1(最慷慨) |
| Microsoft Copilot | 33:1 |
| PerplexityBot | 111:1 |
| GPTBot | 1,276:1 |
| ClaudeBot | 23,951:1(最不对等) |
这意味着 PerplexityBot 是目前对网站主最"公平"的 AI 爬虫——爬你的内容后最有可能把流量回馈给你。
对你的影响:这不改变你的策略(仍然应该允许所有 AI 爬虫),但解释了为什么 Perplexity 可能是 GEO 优化最容易看到效果的平台。
【可选,有代码基础再看】Speakable Schema——进阶技巧
这部分涉及 HTML 代码,完全可以跳过——先把 llms.txt 和 robots.txt 配置好,那才是最重要的基础。等你熟悉了再回来看这部分。
如果你的内容经常被语音助手和 AI 朗读引用,可以在答案优先段落上添加 Speakable Schema:
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "WebPage",
"speakable": {
"@type": "SpeakableSpecification",
"cssSelector": [".answer-block", ".key-takeaway"]
}
}
</script>
这告诉 AI:“这些段落特别适合被朗读或直接引用。”
对大多数初学者来说这是可选的进阶操作——先确保基础的 llms.txt 和 Schema 到位。
对第三方平台用户的说明
如果你没有独立网站,无法配置 llms.txt、robots.txt 或 Schema——这些技术配置对你不适用。
但这不代表你完全没有办法。第三方平台(知乎、小红书)上的内容已经在 AI 爬虫的覆盖范围内。你能做的是:
- 在知乎完善个人资料——AI 爬虫会读取你的个人简介,一个清晰的专业背景介绍有助于 AI 判断你是可信来源
- 在回答中用答案优先格式——这是第 6 周的核心内容,但和 llms.txt 的目标相同:让 AI 更容易提取你的答案
- 保持回答的更新日期——知乎显示回答的最后更新时间,AI 会优先引用近期更新的内容
- 发布时选择合适的话题标签——知乎的话题标签帮助 AI 将你的内容和正确的话题关联
技术配置层(llms.txt、Schema)是加速器,不是必要条件。高质量内容 + 正确的平台策略,没有技术配置同样可以获得 AI 引用。
常见误区
误区 1:“配置了 llms.txt 就能立刻被 AI 引用”
不是。llms.txt 是"告诉 AI 看什么"的导航,但 AI 最终引用什么取决于内容质量。llms.txt 让 AI 更高效地找到你的重要内容,但如果内容本身不够好(不是答案优先、没有数据、不够权威),AI 仍然不会引用。先把内容质量做好,再配置 llms.txt。
误区 2:“robots.txt 拒绝了某些 AI 爬虫,是不是保护了我的内容版权?”
拒绝 AI 爬虫不能保护内容版权,它只是让你的内容不被那个 AI 使用——同时也失去了被那个 AI 引用的机会。内容版权和 AI 使用是复杂的法律问题,robots.txt 不是解决方案。除非你有充分的理由(商业机密、付费内容),否则建议允许所有主流 AI 爬虫。
误区 3:“llms.txt 格式不对会怎样?”
不会有惩罚。llms.txt 是一个新兴标准,还在演化中。格式"错了"只是可能让 AI 解析效率低,不会导致任何负面后果。重要的是把核心内容列出来,格式次之。
本课小结
- llms.txt 是给 AI 爬虫的导航图——Markdown 格式,放在网站根目录,告诉 AI 什么内容最重要
- 按重要性排序你的内容,每个链接附简短描述说明内容价值
- robots.txt(权限)+ sitemap.xml(完整列表)+ llms.txt(策划导航)三者互补
- PerplexityBot 是爬取-引荐比最好的 AI 爬虫——GEO 优化最容易在 Perplexity 上看到效果
- 第三方平台用户:没有 llms.txt,但个人资料完善 + 答案优先格式 + 更新内容同样能提升 AI 引用率
- llms.txt 是加速器,不是必要条件——先把内容质量做好
下一课:GEO 基线测试——在开始优化之前,先搞清楚你目前在 AI 搜索中的可见性现状。