第 5 周 · GEO 基础——AI 如何选择引用你

为什么需要基线测试

你不能优化你不衡量的东西。

不管你现在有没有网站，这节课都值得认真做。

如果你有网站：测自己当前在 AI 搜索中的可见度，找出优化方向
如果你只有知乎/小红书账号：测你的内容在 AI 中是否被引用，了解中文 AI 引用规律
如果你还没有任何内容：测你感兴趣的话题领域——了解谁是 AI 目前的"头部引用源"，搞清楚将来需要超越的对手和他们的内容特征

在开始任何 GEO 优化之前，基线测试帮你回答：

AI 搜索引擎现在引用你（或你的领域）了吗？
它引用的是谁？他们的内容和你的有什么差异？
你的话题在 AI 搜索中的可见度基线是多少？

有了基线，后续每次优化后你才能对比：做了这个改变，AI 引用情况变好了还是没变？

选择你的测试平台

根据你的内容语言和目标用户，选择对应的 AI 平台来测试：

面向中文用户（优先测试）：

平台	特点	引用来源偏好
Kimi（kimi.moonshot.cn）	中立性强，引用来源多样	知乎、独立博客、百科
DeepSeek（chat.deepseek.com）	技术内容权威，日常内容也强	知乎、专业媒体
文心一言（yiyan.baidu.com）	百度系，偏好百度生态内容	百度百科、百家号、知乎
豆包（doubao.com）	字节系，偏好头条系内容	今日头条、知乎、小红书

面向英文用户（同时测试）：

平台	特点	引用来源偏好
Perplexity（perplexity.ai）	引用最透明，来源可见	Reddit、专业媒体、维基
ChatGPT（chatgpt.com）	需要开启"Search the web"	Reddit、官方来源
Google（google.com）	查看 AI Overview	高权威站点、Reddit

建议：

如果你的内容面向中文用户，至少测试 Kimi + DeepSeek + 文心一言这三个
如果你的内容面向英文用户，测试 Perplexity + ChatGPT + Google AI Overview
如果两者都有，两套都测

GEO 基线测试方法

步骤 1：设计测试查询集（20-30 个）

选 20-30 个和你的话题/品牌相关的查询，覆盖不同类型：

类型	数量	中文示例	英文示例
品牌直接查询	3-4 个	“[你的名字/品牌]怎么样”	“[Brand] review”
话题通用查询	5-6 个	“降噪耳机推荐 2026”	“best noise cancelling headphones 2026”
对比/评测查询	3-4 个	“Sony XM6 和 AirPods Max 哪个好”	“Sony XM6 vs AirPods Max 2”
问题型查询	3-4 个	“降噪耳机会不会伤听力”	“are noise cancelling headphones safe”
场景型/长尾查询	3-4 个	“地铁通勤用哪款降噪耳机”	“best headphones for open office noise”

关键：用自然语言写查询，模拟真实用户在 AI 搜索中的提问方式——特别是中文 AI，用完整的问句比用短关键词效果更真实。

✅ 好的测试查询（自然语言，完整问题）：
"我每天坐地铁通勤，周围很吵，想买一款降噪耳机，预算 2000 以内有什么推荐？"
"Sony XM6 和 AirPods Max 2 到底哪个降噪更好？"

❌ 差的测试查询（关键词堆砌，不像真实用户会问的）：
"降噪耳机推荐"
"XM6 AirPods 对比"

步骤 2：执行测试

把每个查询分别在选定的平台上测试：

测试规范：

使用无痕/隐私浏览器模式（避免个性化推荐影响结果）
不要登录账号（匿名状态更接近普通用户的体验）
记录时截图（方便事后对比）

Kimi / DeepSeek / 文心一言测试：

直接在对话框输入你的测试查询
观察：AI 的回答有没有引用来源？引用了哪些来源？来源里有没有你？
注意：不同中文 AI 显示引用来源的方式不同，有的在回答末尾列出，有的在文字中嵌入

Perplexity 测试：

输入查询后，Perplexity 会在右侧显示引用来源列表（编号 1、2、3…）
这是最方便记录的 AI，引用来源非常清楚

Google AI Overview 测试：

用英文查询（AI Overview 主要出现在英文搜索）
不是所有搜索都会触发 AI Overview，如果没出现就记录"未触发"

步骤 3：记录数据

## 查询 #1："Sony XM6 和 AirPods Max 2 哪个降噪更好？"

### Kimi
- 你的品牌/内容被提及：[是/否]
- 引用来源列表：
  1. [来源名称 / URL]
  2. [来源名称 / URL]
- 竞品/其他来源：[列出主要被引用的来源]
- 对你内容的提及：[正面引用/中性提及/未提及]

### DeepSeek
- 你的品牌/内容被提及：[是/否]
- 引用来源：[记录]
- 竞品：[记录]

### 文心一言
- 被提及：[是/否]
- 来源：[记录]

步骤 4：汇总分析

## GEO 基线测试汇总

测试日期：[日期]
测试查询数：[数量，建议 20 个起步]

### 中文 AI 可见度
| 平台 | 测试查询数 | 被引用次数 | 引用率 |
|------|-----------|-----------|--------|
| Kimi | 20 | [x] | [x%] |
| DeepSeek | 20 | [x] | [x%] |
| 文心一言 | 20 | [x] | [x%] |
| 综合（中文） | 20 | [合计引用/60] | [x%] |

### 英文 AI 可见度（如果有英文内容）
| 平台 | 测试查询数 | 被引用次数 | 引用率 |
|------|-----------|-----------|--------|
| Perplexity | 20 | [x] | [x%] |
| ChatGPT | 20 | [x] | [x%] |
| Google AIO | 20 | [x] | [x%] |

### 竞品引用分析（重点！）
| 来源 | Kimi | DeepSeek | 文心一言 | 合计 |
|------|------|---------|---------|------|
| [知乎/来源A] | [x] | [x] | [x] | [x] |
| [来源B] | [x] | [x] | [x] | [x] |
| [来源C] | [x] | [x] | [x] | [x] |

### 引用来源类型分布
| 来源类型 | 引用次数 | 占比 |
|---------|---------|------|
| 知乎 | [x] | [x%] |
| 独立博客/网站 | [x] | [x%] |
| 媒体（少数派、IT之家等） | [x] | [x%] |
| 百科/官方文档 | [x] | [x%] |
| Reddit（英文内容） | [x] | [x%] |
| 其他 | [x] | [x%] |

### 关键发现
1.
2.
3.

### 优化方向
基于基线测试，优先优化的方向是：
1.
2.

怎么解读基线测试结果

场景 A：你还没有任何内容（最常见的起点）

完全正常。基线测试在这个阶段的价值是了解你的竞争环境：

记录哪些来源被反复引用——这些是你将来的 GEO 竞争对手
详细分析被引用内容的特征：结构是什么样的？信息密度如何？有没有数据？回答是否直接？
记录哪种内容类型被引用最多——是深度长文、知乎回答、还是对比文章？

把这些特征作为你将来创作内容的目标标准。不是要复制他们，而是理解 AI 认为"值得引用"的内容是什么样的，然后用自己的知识和视角达到这个标准。

接下来：完成第 5 周第 2 课的 llms.txt 配置，然后开始创作第一篇内容。

场景 B：你有内容，但几乎不被引用

新账号或内容量少时的正常结果。AI 引用需要建立权威，1-2 篇内容是不够的。

分析要做的事：

比较"谁被引用了"和"你的内容"——他们的内容在哪些维度比你强？（字数？数据？结构？来源权威？）
看被引用内容的第一段——是不是直接给出了答案？（答案优先原则）
从第 6 周开始用 GEO 写法改造你的内容
1 个月后用相同查询集重测，看有没有变化

场景 C：部分查询被引用

好消息！说明你的内容在某些话题上已经被 AI 认可。

需要做的分析：

哪些查询被引用了？被引用的内容有什么共同特征？
哪些查询没被引用？这些查询的内容是不是信息密度不够、没有数据、或者不是答案优先格式？
被引用的是你的网站还是你的知乎回答？如果是知乎而不是你的网站，说明网站的 E-E-A-T 或 Schema 配置可能还不够

把被引用的内容当作模板，用同样的方法改造那些没有被引用的内容。

竞品内容分析：从基线测试中学到真正有用的东西

基线测试不只是测自己——更重要的是分析竞品。

分析框架

拿出被 AI 最频繁引用的 3-5 个竞品来源，对每个做这些问题的分析：

结构：

第一段是不是直接给出了答案？
用了哪些标题格式（问题式 H2 / 描述式 H2）？
有没有对比表格？

数据：

有没有具体数字？（dB 值、续航小时数、价格）
数据有没有标注来源？
有没有第一手测试数据，还是都是二手引用？

权威性：

内容来自哪个平台？（知乎的个人回答 vs 媒体的评测文章）
作者有没有明确的身份/专业背景？
有没有引用权威来源？

长度：

整篇内容大概多少字？
每个 H2 段落大概多少字？

记录你的发现，然后问自己：在这 5 个维度上，你的内容和竞品相比处于什么水平？哪个维度的差距最大、最容易改善？

定期复测

基线测试不是做一次就完了。建立一个固定的复测节奏：

频率	做什么
每月	用相同的 20 个查询重新测试，记录变化（花时间约 1-2 小时）
每次重要内容发布后 2-4 周	看新内容是否开始被引用
每季度	全面复盘，可以增加新的测试查询，查看竞品格局变化

保持查询集的稳定性——这样才能做前后对比。如果每次测试用不同的查询，你无法判断引用率的变化是因为你的优化，还是因为查询本身不同。

常见误区

误区 1：“我测了 ChatGPT，说明就知道了 GEO 效果”

不够。ChatGPT 和中文 AI（Kimi、DeepSeek）的引用来源和逻辑有差异。如果你的目标用户是中文用户，测 ChatGPT 几乎没有参考价值。必须测你目标用户实际使用的 AI 工具。

误区 2：“我测了一次，被引用了 0 次，说明 GEO 对我完全没用”

单次测试结果的随机性很大。AI 的回答在不同时间对同一查询会有变化。做 20+ 查询的测试，并且坚持每月测试追踪趋势，才有参考价值。

误区 3：“我的竞品被引用了，说明他们肯定花钱买了 AI 的推广位”

AI 没有付费推广。竞品被引用是因为他们的内容符合 AI 的引用标准——通常是内容更直接、数据更丰富、结构更清晰。这是好消息，意味着你也可以通过优化内容来达到同样的效果。

误区 4：“我被 Kimi 引用了，但文心一言没引用，Kimi 是不是更好？”

不同 AI 有不同的内容偏好（文心一言偏好百度生态内容，豆包偏好字节系内容）。被某个 AI 引用不一定代表你的内容质量绝对更高，可能只是这个 AI 恰好更覆盖你所在的平台。重要的是整体趋势——随着时间推移，综合引用率是否在上升。

本课小结

GEO 基线测试 = 在开始优化前摸清你在 AI 搜索中的现状——无论你有没有网站，都值得做
中文内容优先测试中文 AI：Kimi、DeepSeek、文心一言（不只是 ChatGPT）
设计 20-30 个测试查询，覆盖品牌/通用/对比/问题/场景这五类
记录可见度、竞品引用来源、引用内容特征——竞品分析比自身引用率更有价值
每月用相同查询集复测，追踪趋势（不是单次结果）
基线 = 0% 引用率是正常起点，重要的是知道差距在哪里

下一课：实践——配置 llms.txt + 执行完整的 GEO 基线测试。

为什么需要基线测试#

选择你的测试平台#

GEO 基线测试方法#

步骤 1：设计测试查询集（20-30 个）#

步骤 2：执行测试#

步骤 3：记录数据#

步骤 4：汇总分析#

怎么解读基线测试结果#

场景 A：你还没有任何内容（最常见的起点）#

场景 B：你有内容，但几乎不被引用#

场景 C：部分查询被引用#

竞品内容分析：从基线测试中学到真正有用的东西#

分析框架#

定期复测#

常见误区#

本课小结#