第 5 周 · GEO 基础——AI 如何选择引用你
为什么需要基线测试
你不能优化你不衡量的东西。
不管你现在有没有网站,这节课都值得认真做。
- 如果你有网站:测自己当前在 AI 搜索中的可见度,找出优化方向
- 如果你只有知乎/小红书账号:测你的内容在 AI 中是否被引用,了解中文 AI 引用规律
- 如果你还没有任何内容:测你感兴趣的话题领域——了解谁是 AI 目前的"头部引用源",搞清楚将来需要超越的对手和他们的内容特征
在开始任何 GEO 优化之前,基线测试帮你回答:
- AI 搜索引擎现在引用你(或你的领域)了吗?
- 它引用的是谁?他们的内容和你的有什么差异?
- 你的话题在 AI 搜索中的可见度基线是多少?
有了基线,后续每次优化后你才能对比:做了这个改变,AI 引用情况变好了还是没变?
选择你的测试平台
根据你的内容语言和目标用户,选择对应的 AI 平台来测试:
面向中文用户(优先测试):
| 平台 | 特点 | 引用来源偏好 |
|---|---|---|
| Kimi(kimi.moonshot.cn) | 中立性强,引用来源多样 | 知乎、独立博客、百科 |
| DeepSeek(chat.deepseek.com) | 技术内容权威,日常内容也强 | 知乎、专业媒体 |
| 文心一言(yiyan.baidu.com) | 百度系,偏好百度生态内容 | 百度百科、百家号、知乎 |
| 豆包(doubao.com) | 字节系,偏好头条系内容 | 今日头条、知乎、小红书 |
面向英文用户(同时测试):
| 平台 | 特点 | 引用来源偏好 |
|---|---|---|
| Perplexity(perplexity.ai) | 引用最透明,来源可见 | Reddit、专业媒体、维基 |
| ChatGPT(chatgpt.com) | 需要开启"Search the web" | Reddit、官方来源 |
| Google(google.com) | 查看 AI Overview | 高权威站点、Reddit |
建议:
- 如果你的内容面向中文用户,至少测试 Kimi + DeepSeek + 文心一言这三个
- 如果你的内容面向英文用户,测试 Perplexity + ChatGPT + Google AI Overview
- 如果两者都有,两套都测
GEO 基线测试方法
步骤 1:设计测试查询集(20-30 个)
选 20-30 个和你的话题/品牌相关的查询,覆盖不同类型:
| 类型 | 数量 | 中文示例 | 英文示例 |
|---|---|---|---|
| 品牌直接查询 | 3-4 个 | “[你的名字/品牌]怎么样” | “[Brand] review” |
| 话题通用查询 | 5-6 个 | “降噪耳机推荐 2026” | “best noise cancelling headphones 2026” |
| 对比/评测查询 | 3-4 个 | “Sony XM6 和 AirPods Max 哪个好” | “Sony XM6 vs AirPods Max 2” |
| 问题型查询 | 3-4 个 | “降噪耳机会不会伤听力” | “are noise cancelling headphones safe” |
| 场景型/长尾查询 | 3-4 个 | “地铁通勤用哪款降噪耳机” | “best headphones for open office noise” |
关键:用自然语言写查询,模拟真实用户在 AI 搜索中的提问方式——特别是中文 AI,用完整的问句比用短关键词效果更真实。
✅ 好的测试查询(自然语言,完整问题):
"我每天坐地铁通勤,周围很吵,想买一款降噪耳机,预算 2000 以内有什么推荐?"
"Sony XM6 和 AirPods Max 2 到底哪个降噪更好?"
❌ 差的测试查询(关键词堆砌,不像真实用户会问的):
"降噪耳机推荐"
"XM6 AirPods 对比"
步骤 2:执行测试
把每个查询分别在选定的平台上测试:
测试规范:
- 使用无痕/隐私浏览器模式(避免个性化推荐影响结果)
- 不要登录账号(匿名状态更接近普通用户的体验)
- 记录时截图(方便事后对比)
Kimi / DeepSeek / 文心一言测试:
- 直接在对话框输入你的测试查询
- 观察:AI 的回答有没有引用来源?引用了哪些来源?来源里有没有你?
- 注意:不同中文 AI 显示引用来源的方式不同,有的在回答末尾列出,有的在文字中嵌入
Perplexity 测试:
- 输入查询后,Perplexity 会在右侧显示引用来源列表(编号 1、2、3…)
- 这是最方便记录的 AI,引用来源非常清楚
Google AI Overview 测试:
- 用英文查询(AI Overview 主要出现在英文搜索)
- 不是所有搜索都会触发 AI Overview,如果没出现就记录"未触发"
步骤 3:记录数据
## 查询 #1:"Sony XM6 和 AirPods Max 2 哪个降噪更好?"
### Kimi
- 你的品牌/内容被提及:[是/否]
- 引用来源列表:
1. [来源名称 / URL]
2. [来源名称 / URL]
- 竞品/其他来源:[列出主要被引用的来源]
- 对你内容的提及:[正面引用/中性提及/未提及]
### DeepSeek
- 你的品牌/内容被提及:[是/否]
- 引用来源:[记录]
- 竞品:[记录]
### 文心一言
- 被提及:[是/否]
- 来源:[记录]
步骤 4:汇总分析
## GEO 基线测试汇总
测试日期:[日期]
测试查询数:[数量,建议 20 个起步]
### 中文 AI 可见度
| 平台 | 测试查询数 | 被引用次数 | 引用率 |
|------|-----------|-----------|--------|
| Kimi | 20 | [x] | [x%] |
| DeepSeek | 20 | [x] | [x%] |
| 文心一言 | 20 | [x] | [x%] |
| 综合(中文) | 20 | [合计引用/60] | [x%] |
### 英文 AI 可见度(如果有英文内容)
| 平台 | 测试查询数 | 被引用次数 | 引用率 |
|------|-----------|-----------|--------|
| Perplexity | 20 | [x] | [x%] |
| ChatGPT | 20 | [x] | [x%] |
| Google AIO | 20 | [x] | [x%] |
### 竞品引用分析(重点!)
| 来源 | Kimi | DeepSeek | 文心一言 | 合计 |
|------|------|---------|---------|------|
| [知乎/来源A] | [x] | [x] | [x] | [x] |
| [来源B] | [x] | [x] | [x] | [x] |
| [来源C] | [x] | [x] | [x] | [x] |
### 引用来源类型分布
| 来源类型 | 引用次数 | 占比 |
|---------|---------|------|
| 知乎 | [x] | [x%] |
| 独立博客/网站 | [x] | [x%] |
| 媒体(少数派、IT之家等) | [x] | [x%] |
| 百科/官方文档 | [x] | [x%] |
| Reddit(英文内容) | [x] | [x%] |
| 其他 | [x] | [x%] |
### 关键发现
1.
2.
3.
### 优化方向
基于基线测试,优先优化的方向是:
1.
2.
怎么解读基线测试结果
场景 A:你还没有任何内容(最常见的起点)
完全正常。基线测试在这个阶段的价值是了解你的竞争环境:
- 记录哪些来源被反复引用——这些是你将来的 GEO 竞争对手
- 详细分析被引用内容的特征:结构是什么样的?信息密度如何?有没有数据?回答是否直接?
- 记录哪种内容类型被引用最多——是深度长文、知乎回答、还是对比文章?
把这些特征作为你将来创作内容的目标标准。不是要复制他们,而是理解 AI 认为"值得引用"的内容是什么样的,然后用自己的知识和视角达到这个标准。
接下来:完成第 5 周第 2 课的 llms.txt 配置,然后开始创作第一篇内容。
场景 B:你有内容,但几乎不被引用
新账号或内容量少时的正常结果。AI 引用需要建立权威,1-2 篇内容是不够的。
分析要做的事:
- 比较"谁被引用了"和"你的内容"——他们的内容在哪些维度比你强?(字数?数据?结构?来源权威?)
- 看被引用内容的第一段——是不是直接给出了答案?(答案优先原则)
- 从第 6 周开始用 GEO 写法改造你的内容
- 1 个月后用相同查询集重测,看有没有变化
场景 C:部分查询被引用
好消息!说明你的内容在某些话题上已经被 AI 认可。
需要做的分析:
- 哪些查询被引用了?被引用的内容有什么共同特征?
- 哪些查询没被引用?这些查询的内容是不是信息密度不够、没有数据、或者不是答案优先格式?
- 被引用的是你的网站还是你的知乎回答?如果是知乎而不是你的网站,说明网站的 E-E-A-T 或 Schema 配置可能还不够
把被引用的内容当作模板,用同样的方法改造那些没有被引用的内容。
竞品内容分析:从基线测试中学到真正有用的东西
基线测试不只是测自己——更重要的是分析竞品。
分析框架
拿出被 AI 最频繁引用的 3-5 个竞品来源,对每个做这些问题的分析:
结构:
- 第一段是不是直接给出了答案?
- 用了哪些标题格式(问题式 H2 / 描述式 H2)?
- 有没有对比表格?
数据:
- 有没有具体数字?(dB 值、续航小时数、价格)
- 数据有没有标注来源?
- 有没有第一手测试数据,还是都是二手引用?
权威性:
- 内容来自哪个平台?(知乎的个人回答 vs 媒体的评测文章)
- 作者有没有明确的身份/专业背景?
- 有没有引用权威来源?
长度:
- 整篇内容大概多少字?
- 每个 H2 段落大概多少字?
记录你的发现,然后问自己:在这 5 个维度上,你的内容和竞品相比处于什么水平?哪个维度的差距最大、最容易改善?
定期复测
基线测试不是做一次就完了。建立一个固定的复测节奏:
| 频率 | 做什么 |
|---|---|
| 每月 | 用相同的 20 个查询重新测试,记录变化(花时间约 1-2 小时) |
| 每次重要内容发布后 2-4 周 | 看新内容是否开始被引用 |
| 每季度 | 全面复盘,可以增加新的测试查询,查看竞品格局变化 |
保持查询集的稳定性——这样才能做前后对比。如果每次测试用不同的查询,你无法判断引用率的变化是因为你的优化,还是因为查询本身不同。
常见误区
误区 1:“我测了 ChatGPT,说明就知道了 GEO 效果”
不够。ChatGPT 和中文 AI(Kimi、DeepSeek)的引用来源和逻辑有差异。如果你的目标用户是中文用户,测 ChatGPT 几乎没有参考价值。必须测你目标用户实际使用的 AI 工具。
误区 2:“我测了一次,被引用了 0 次,说明 GEO 对我完全没用”
单次测试结果的随机性很大。AI 的回答在不同时间对同一查询会有变化。做 20+ 查询的测试,并且坚持每月测试追踪趋势,才有参考价值。
误区 3:“我的竞品被引用了,说明他们肯定花钱买了 AI 的推广位”
AI 没有付费推广。竞品被引用是因为他们的内容符合 AI 的引用标准——通常是内容更直接、数据更丰富、结构更清晰。这是好消息,意味着你也可以通过优化内容来达到同样的效果。
误区 4:“我被 Kimi 引用了,但文心一言没引用,Kimi 是不是更好?”
不同 AI 有不同的内容偏好(文心一言偏好百度生态内容,豆包偏好字节系内容)。被某个 AI 引用不一定代表你的内容质量绝对更高,可能只是这个 AI 恰好更覆盖你所在的平台。重要的是整体趋势——随着时间推移,综合引用率是否在上升。
本课小结
- GEO 基线测试 = 在开始优化前摸清你在 AI 搜索中的现状——无论你有没有网站,都值得做
- 中文内容优先测试中文 AI:Kimi、DeepSeek、文心一言(不只是 ChatGPT)
- 设计 20-30 个测试查询,覆盖品牌/通用/对比/问题/场景这五类
- 记录可见度、竞品引用来源、引用内容特征——竞品分析比自身引用率更有价值
- 每月用相同查询集复测,追踪趋势(不是单次结果)
- 基线 = 0% 引用率是正常起点,重要的是知道差距在哪里
下一课:实践——配置 llms.txt + 执行完整的 GEO 基线测试。