第 9 周 · 衡量、监测与迭代
GEO 衡量的挑战
和 SEO 不同,GEO 的衡量还处于早期阶段。
SEO 有成熟的工具:Google Search Console 直接告诉你排名、点击、展示——精确到每个关键词。
GEO 没有一个"AI Search Console"。AI 的回答是动态生成的——同一个问题在不同时间、不同用户那里可能引用不同的来源。没有一个工具能告诉你"AI 搜索出现你的内容多少次"。
但这不意味着不能衡量——只是需要不同的方法。本课教你三种方法,从零成本手动测试到自动化系统,按你的能力和需求选择。
方法 1:Prompt Testing(提示词测试)
这是目前最可靠的 GEO 衡量方法——免费、不需要任何工具,你在第 5 周已经做过了基线测试。现在把它系统化,变成每月的例行监测。
测试平台选择
英文内容 / 面向全球用户:
- ChatGPT(chatgpt.com,打开"Search the web"功能)
- Perplexity(perplexity.ai)
- Google AI Overviews(google.com,需要用英文查询,并确认 AIO 出现了)
中文内容 / 面向中文用户:
- Kimi(kimi.moonshot.cn)
- DeepSeek(chat.deepseek.com)
- 文心一言(yiyan.baidu.com)
- 豆包(doubao.com)
如果你面向中文用户,优先测试中文 AI——它们才是你目标用户实际使用的工具。用 Perplexity 测试中文内容,结果没有参考价值。
标准化测试流程
步骤 1:维护一个固定的测试查询集(20-30 个)
从第 5 周的基线测试开始,维护这个查询集,每月用相同的查询测试:
分类:
- 5 个品牌相关查询(直接问你的品牌名/笔名)
例:"[你的名字]的评测可信吗?" "[品牌名]是做什么的?"
- 8-10 个话题通用查询(你的话题领域的核心问题)
例:"2026 年最好的降噪耳机是哪款?"
"Sony XM6 值得买吗?"
"降噪耳机选购指南"
- 5 个对比/评测查询(AI 最爱引用的类型)
例:"Sony XM6 和 AirPods Max 2 哪个好?"
"XM6 vs 安克 Q45 有什么区别?"
- 5 个问题型/场景型查询
例:"地铁通勤用什么降噪耳机合适?"
"飞机上戴降噪耳机有用吗?"
重要:查询集要保持稳定——这样才能做前后对比。每季度可以增加新查询(覆盖新发布的内容),但不要删除旧的(需要连续数据)。
步骤 2:每月执行测试
每月第一周,用相同的查询集测试:
- 用无痕浏览器(避免个性化推荐影响结果)
- 每个查询在 3 个平台上各测试一次
- 每次测试记录:是否被引用、引用位置(第几条来源)、引用的是网站还是第三方平台
步骤 3:记录数据
| 查询 | 平台 | 被引用 | 引用位置 | 内容来源 | 竞品引用 |
|------|------|--------|---------|---------|---------|
| "XM6和AirPods Max哪个好" | Kimi | 是 | #2 | 知乎回答 | 极客湾 |
| "XM6和AirPods Max哪个好" | DeepSeek | 否 | - | - | 少数派、ITHome |
| "XM6和AirPods Max哪个好" | 文心一言 | 是 | #1 | 你的网站 | - |
| "降噪耳机推荐 2026" | Kimi | 否 | - | - | 少数派、知乎 |
...
步骤 4:计算 GEO 核心指标
AI 引用率 = 被引用的查询数 / 总测试查询数
分平台计算:
- Kimi 引用率:[x/20] = [x%]
- DeepSeek 引用率:[x/20] = [x%]
- 文心一言引用率:[x/20] = [x%]
- ChatGPT 引用率(如有英文内容):[x/20] = [x%]
- 综合引用率:[总引用次数 / (20 × 测试平台数)] = [x%]
月度趋势追踪
把每月的结果填入追踪表:
| 月份 | Kimi | DeepSeek | 文心一言 | ChatGPT | 综合引用率 |
|------|------|---------|---------|---------|----------|
| 4月 | [x%] | [x%] | [x%] | [x%] | [x%] |
| 5月 | [x%] | [x%] | [x%] | [x%] | [x%] |
| 6月 | [x%] | [x%] | [x%] | [x%] | [x%] |
如何解读趋势:
- 综合引用率上升 → GEO 工作有效,继续当前策略
- 某个平台引用率下降 → 该平台最近的算法更新可能改变了引用偏好,调整该平台的内容策略
- 被引用的来源从"知乎"变成了"你的网站" → 你的网站权威度在提升
方法 2:GA4 中的 AI 流量追踪
第 1 课讲过,在 GA4 的 Referral(引荐)报告中可以追踪来自 AI 工具的流量:
如何设置自定义报告:
- 在 GA4 打开"报告" → “流量获取”
- 把"来源/媒介"加入作为细分维度
- 筛选包含以下关键词的来源:
英文 AI 来源:
- chat.openai.com
- perplexity.ai
- gemini.google.com
- copilot.microsoft.com
中文 AI 来源:
- kimi.moonshot.cn
- chat.deepseek.com
- yiyan.baidu.com(文心一言)
- doubao.com(豆包)
为什么 AI 来源流量很重要:
这是 GEO 产生实际商业价值最直接的证明。Prompt Testing 测试"有没有被引用",Referral 流量测试"引用有没有带来真实用户"。两者结合才能完整评估 GEO 效果。
注意:很多 AI 用户看到你被引用后,会直接在 AI 里继续对话,或者通过复制 URL 访问,而不是点击链接——所以 AI 实际带来的用户关注通常比 Referral 流量数字显示的更多。
方法 3:竞品分析
除了追踪自己的 GEO 可见性,还要追踪竞品的可见性——你不是在真空中竞争。
如何分析:
在 Prompt Testing 时,同时记录竞品被引用的情况(上面的表格有"竞品引用"列)。
每月分析:
- 哪些竞品在哪些查询中稳定出现?
- 他们的什么内容被引用(网站文章、知乎回答、还是其他)?
- 他们的引用内容有什么特征(比你的回答更短?有更多数据?格式不同?)
这不是为了复制竞品,而是理解 AI 对哪类内容有偏好,然后在自己的内容中也体现这些特征。
方法 4:商业监测工具(可选)
如果预算允许,这些工具可以自动化 Prompt Testing 的过程:
| 工具 | 核心能力 | 价格 | 适合谁 |
|---|---|---|---|
| Otterly.AI | Prompt 测试、可见性审计、竞品对比 | $29/月起 | 个人/小团队入门首选 |
| Peec AI | 可见性/位置/情感追踪 | $95/月起 | 需要更细致追踪的团队 |
| Brand24 | 跨平台品牌追踪(包括 AI 平台) | 中等 | 品牌层面的监测 |
| Ahrefs Brand Radar | AI 声量份额分析 | Ahrefs 订阅内 | 已有 Ahrefs 的用户 |
注意:以上工具主要覆盖英文 AI 平台(ChatGPT、Perplexity 等),对中文 AI 平台(Kimi、文心一言)的覆盖还有限。中文内容的监测目前主要靠手动 Prompt Testing。
对初学者的建议:先用手动 Prompt Testing(完全免费),确认 GEO 策略有效后再考虑付费工具。付费工具节省的是时间,不是策略本身。
方法 5:DIY 自动化监测(有编程能力的读者)
如果你有 Python 基础,可以搭建一个简单的自动化监测系统:
基本架构
Python 脚本
↓
调用 Perplexity API / OpenAI API
(Perplexity 的 API 文档在 docs.perplexity.ai,
OpenAI 的在 platform.openai.com/docs)
↓
发送标准化查询集
↓
解析返回的引用 URL
↓
与你的域名列表匹配(你的网站、知乎主页等)
↓
存入数据库(SQLite 就够)
↓
生成月度报告
最简实现思路
# 伪代码示意(说明逻辑,不是完整可运行代码)
from openai import OpenAI # 或 perplexity SDK
import sqlite3
queries = [
"2026年最好的降噪耳机",
"Sony XM6 vs AirPods Max 2 哪个好",
...
]
my_domains = ["yoursite.com", "zhihu.com/people/your-id"]
client = OpenAI(api_key="你的API密钥")
for query in queries:
response = client.chat.completions.create(
model="gpt-4-turbo",
messages=[{"role": "user", "content": query}],
# 开启网络搜索功能
)
# 提取引用的 URL 列表
citations = extract_citations_from_response(response)
# 检查是否包含你的域名
for domain in my_domains:
if any(domain in url for url in citations):
log_citation(query, domain, citations)
# 记录竞品引用
log_all_citations(query, citations)
注意:API 调用有成本。20 个查询 × 3 个平台 × 每月 1 次,大约每月 $5-15 的 API 费用。对个人项目来说可以接受,对规模化监测来说成本会上升。
SEO + GEO 综合 KPI 体系
把 SEO 和 GEO 的指标放在一起看,才能发现偏科。
综合月度报告模板
## SEO + GEO 月度报告 [月份]
### SEO 端(数据来源:GSC + GA4)
| 指标 | 上月 | 本月 | 趋势 |
|------|------|------|------|
| Google 有机点击 | | | ↑↓→ |
| Google 展示次数 | | | |
| Google 平均 CTR | | | |
| Google 平均排名 | | | |
| 百度收录量 | | | |
| GA4 有机流量 | | | |
| 平均参与时间 | | | |
### GEO 端(数据来源:Prompt Testing + GA4 Referral)
| 指标 | 上月 | 本月 | 趋势 |
|------|------|------|------|
| Kimi 引用率 | | | |
| DeepSeek 引用率 | | | |
| 文心一言引用率 | | | |
| ChatGPT 引用率 | | | |
| AI 来源 referral 总流量 | | | |
| 品牌在 AI 中的知晓度 | 无/有/清楚 | | |
### 偏科诊断
SEO 好 + GEO 差 = 内容排名不错但不够"可引用"
→ 行动:加强答案优先段落、数据嵌入、Schema(第 5-6 周内容)
SEO 差 + GEO 好 = AI 引用你但传统排名不行
→ 行动:加强内链、技术 SEO、外链建设(第 4 周内容)
两者都好 = 持续当前策略,扩展新话题集群
两者都差 = 回到基础——内容质量和搜索意图匹配(第 3 周内容)
### 本月关键发现
1.
2.
### 下月行动项
1.
2.
持续优化循环
衡量不是目的——基于数据做决策才是目的。
┌─────────────────────────────────┐
│ 分析数据 │
│ 每月第一周填写 SEO+GEO 追踪表 │
└──────────────┬──────────────────┘
│
┌────────────┴─────────────┐
▼ ▼
发现问题 确认有效
"某些查询引用率下降" "知乎回答被引用率上升"
│ │
▼ ▼
形成假设 扩大应用
"是不是这些内容的 "把有效的回答格式
数据不够新了?" 推广到更多内容"
│
▼
实施改变
"更新内容数据,
加入最新测试结果"
│
▼
下月复测
│
└──────────────────────────────→ 回到"分析数据"
每个月重复这个循环。SEO 和 GEO 都不是"做一次就完了"的事——它们是持续迭代的过程。三个月的数据才能看出真正的趋势,六个月的数据才能做策略调整。
常见误区
误区 1:“我测试了 Perplexity,发现我被引用了,说明 GEO 做好了”
单次测试的结果波动很大——同一个查询在同一个平台上,不同时间可能给出完全不同的回答。GEO 衡量需要的是月度的、多查询的、多平台的系统性测试,不是偶尔测一次。
误区 2:“GEO 很难衡量,所以不值得测”
不衡量就不知道自己在哪里。哪怕你的 GEO 工作什么效果都没有,知道"没效果"本身就是有价值的信息——它告诉你需要调整策略。
误区 3:“GA4 显示没有 AI 来源的 Referral 流量,说明 GEO 完全没效果”
AI 来源的 Referral 流量只是 GEO 效果的一部分。很多用户在 AI 里看到你的内容被引用后,会记住你的品牌,之后通过直接搜索你的名字找到你——这部分流量会计入"直接流量"或"品牌词搜索",不会出现在 AI Referral 里。Prompt Testing 能看到的"被引用"比 Referral 流量更全面。
误区 4:“竞品被 AI 引用了,我没被引用,说明我的内容不如他们”
不一定。AI 的引用有很多随机性——同一个查询在不同时间引用不同来源是常态。更重要的是看趋势:你的引用率是在上升还是下降?而不是某一次测试结果的绝对值。
本课小结
- Prompt Testing 是 GEO 衡量的核心——20-30 个固定查询,每月在 3 个平台上执行
- 中文内容测试中文 AI:Kimi、DeepSeek、文心一言、豆包——不要只测 Perplexity
- 在 GA4 的 Referral 中追踪 AI 来源流量(包括中文 AI:kimi.moonshot.cn、deepseek.com 等)
- 竞品分析:记录竞品被引用情况,理解 AI 对哪类内容有偏好
- SEO + GEO 综合仪表盘发现偏科——两端数据不匹配说明策略需要调整
- 持续优化循环:分析 → 假设 → 实施 → 复测,三个月才能看出趋势
本周实践:建立你的完整监测体系并执行第一次综合复盘。