第 9 周 · 衡量、监测与迭代


GEO 衡量的挑战

和 SEO 不同,GEO 的衡量还处于早期阶段

SEO 有成熟的工具:Google Search Console 直接告诉你排名、点击、展示——精确到每个关键词。

GEO 没有一个"AI Search Console"。AI 的回答是动态生成的——同一个问题在不同时间、不同用户那里可能引用不同的来源。没有一个工具能告诉你"AI 搜索出现你的内容多少次"。

但这不意味着不能衡量——只是需要不同的方法。本课教你三种方法,从零成本手动测试到自动化系统,按你的能力和需求选择。


方法 1:Prompt Testing(提示词测试)

这是目前最可靠的 GEO 衡量方法——免费、不需要任何工具,你在第 5 周已经做过了基线测试。现在把它系统化,变成每月的例行监测。

测试平台选择

英文内容 / 面向全球用户

  • ChatGPT(chatgpt.com,打开"Search the web"功能)
  • Perplexity(perplexity.ai)
  • Google AI Overviews(google.com,需要用英文查询,并确认 AIO 出现了)

中文内容 / 面向中文用户

  • Kimi(kimi.moonshot.cn)
  • DeepSeek(chat.deepseek.com)
  • 文心一言(yiyan.baidu.com)
  • 豆包(doubao.com)

如果你面向中文用户,优先测试中文 AI——它们才是你目标用户实际使用的工具。用 Perplexity 测试中文内容,结果没有参考价值。

标准化测试流程

步骤 1:维护一个固定的测试查询集(20-30 个)

从第 5 周的基线测试开始,维护这个查询集,每月用相同的查询测试:

分类:
- 5 个品牌相关查询(直接问你的品牌名/笔名)
  例:"[你的名字]的评测可信吗?" "[品牌名]是做什么的?"

- 8-10 个话题通用查询(你的话题领域的核心问题)
  例:"2026 年最好的降噪耳机是哪款?"
      "Sony XM6 值得买吗?"
      "降噪耳机选购指南"

- 5 个对比/评测查询(AI 最爱引用的类型)
  例:"Sony XM6 和 AirPods Max 2 哪个好?"
      "XM6 vs 安克 Q45 有什么区别?"

- 5 个问题型/场景型查询
  例:"地铁通勤用什么降噪耳机合适?"
      "飞机上戴降噪耳机有用吗?"

重要:查询集要保持稳定——这样才能做前后对比。每季度可以增加新查询(覆盖新发布的内容),但不要删除旧的(需要连续数据)。

步骤 2:每月执行测试

每月第一周,用相同的查询集测试:

  • 用无痕浏览器(避免个性化推荐影响结果)
  • 每个查询在 3 个平台上各测试一次
  • 每次测试记录:是否被引用、引用位置(第几条来源)、引用的是网站还是第三方平台

步骤 3:记录数据

| 查询 | 平台 | 被引用 | 引用位置 | 内容来源 | 竞品引用 |
|------|------|--------|---------|---------|---------|
| "XM6和AirPods Max哪个好" | Kimi | 是 | #2 | 知乎回答 | 极客湾 |
| "XM6和AirPods Max哪个好" | DeepSeek | 否 | - | - | 少数派、ITHome |
| "XM6和AirPods Max哪个好" | 文心一言 | 是 | #1 | 你的网站 | - |
| "降噪耳机推荐 2026" | Kimi | 否 | - | - | 少数派、知乎 |
...

步骤 4:计算 GEO 核心指标

AI 引用率 = 被引用的查询数 / 总测试查询数

分平台计算:
- Kimi 引用率:[x/20] = [x%]
- DeepSeek 引用率:[x/20] = [x%]
- 文心一言引用率:[x/20] = [x%]
- ChatGPT 引用率(如有英文内容):[x/20] = [x%]
- 综合引用率:[总引用次数 / (20 × 测试平台数)] = [x%]

月度趋势追踪

把每月的结果填入追踪表:

| 月份 | Kimi | DeepSeek | 文心一言 | ChatGPT | 综合引用率 |
|------|------|---------|---------|---------|----------|
| 4月  | [x%] | [x%]    | [x%]    | [x%]    | [x%]     |
| 5月  | [x%] | [x%]    | [x%]    | [x%]    | [x%]     |
| 6月  | [x%] | [x%]    | [x%]    | [x%]    | [x%]     |

如何解读趋势

  • 综合引用率上升 → GEO 工作有效,继续当前策略
  • 某个平台引用率下降 → 该平台最近的算法更新可能改变了引用偏好,调整该平台的内容策略
  • 被引用的来源从"知乎"变成了"你的网站" → 你的网站权威度在提升

方法 2:GA4 中的 AI 流量追踪

第 1 课讲过,在 GA4 的 Referral(引荐)报告中可以追踪来自 AI 工具的流量:

如何设置自定义报告

  1. 在 GA4 打开"报告" → “流量获取”
  2. 把"来源/媒介"加入作为细分维度
  3. 筛选包含以下关键词的来源:
英文 AI 来源:
- chat.openai.com
- perplexity.ai
- gemini.google.com
- copilot.microsoft.com

中文 AI 来源:
- kimi.moonshot.cn
- chat.deepseek.com
- yiyan.baidu.com(文心一言)
- doubao.com(豆包)

为什么 AI 来源流量很重要

这是 GEO 产生实际商业价值最直接的证明。Prompt Testing 测试"有没有被引用",Referral 流量测试"引用有没有带来真实用户"。两者结合才能完整评估 GEO 效果。

注意:很多 AI 用户看到你被引用后,会直接在 AI 里继续对话,或者通过复制 URL 访问,而不是点击链接——所以 AI 实际带来的用户关注通常比 Referral 流量数字显示的更多


方法 3:竞品分析

除了追踪自己的 GEO 可见性,还要追踪竞品的可见性——你不是在真空中竞争

如何分析

在 Prompt Testing 时,同时记录竞品被引用的情况(上面的表格有"竞品引用"列)。

每月分析:

  • 哪些竞品在哪些查询中稳定出现?
  • 他们的什么内容被引用(网站文章、知乎回答、还是其他)?
  • 他们的引用内容有什么特征(比你的回答更短?有更多数据?格式不同?)

这不是为了复制竞品,而是理解 AI 对哪类内容有偏好,然后在自己的内容中也体现这些特征。


方法 4:商业监测工具(可选)

如果预算允许,这些工具可以自动化 Prompt Testing 的过程:

工具 核心能力 价格 适合谁
Otterly.AI Prompt 测试、可见性审计、竞品对比 $29/月起 个人/小团队入门首选
Peec AI 可见性/位置/情感追踪 $95/月起 需要更细致追踪的团队
Brand24 跨平台品牌追踪(包括 AI 平台) 中等 品牌层面的监测
Ahrefs Brand Radar AI 声量份额分析 Ahrefs 订阅内 已有 Ahrefs 的用户

注意:以上工具主要覆盖英文 AI 平台(ChatGPT、Perplexity 等),对中文 AI 平台(Kimi、文心一言)的覆盖还有限。中文内容的监测目前主要靠手动 Prompt Testing。

对初学者的建议:先用手动 Prompt Testing(完全免费),确认 GEO 策略有效后再考虑付费工具。付费工具节省的是时间,不是策略本身。


方法 5:DIY 自动化监测(有编程能力的读者)

如果你有 Python 基础,可以搭建一个简单的自动化监测系统:

基本架构

Python 脚本
    ↓
调用 Perplexity API / OpenAI API
(Perplexity 的 API 文档在 docs.perplexity.ai,
 OpenAI 的在 platform.openai.com/docs)
    ↓
发送标准化查询集
    ↓
解析返回的引用 URL
    ↓
与你的域名列表匹配(你的网站、知乎主页等)
    ↓
存入数据库(SQLite 就够)
    ↓
生成月度报告

最简实现思路

# 伪代码示意(说明逻辑,不是完整可运行代码)

from openai import OpenAI  # 或 perplexity SDK
import sqlite3

queries = [
    "2026年最好的降噪耳机",
    "Sony XM6 vs AirPods Max 2 哪个好",
    ...
]
my_domains = ["yoursite.com", "zhihu.com/people/your-id"]

client = OpenAI(api_key="你的API密钥")

for query in queries:
    response = client.chat.completions.create(
        model="gpt-4-turbo",
        messages=[{"role": "user", "content": query}],
        # 开启网络搜索功能
    )
    
    # 提取引用的 URL 列表
    citations = extract_citations_from_response(response)
    
    # 检查是否包含你的域名
    for domain in my_domains:
        if any(domain in url for url in citations):
            log_citation(query, domain, citations)
    
    # 记录竞品引用
    log_all_citations(query, citations)

注意:API 调用有成本。20 个查询 × 3 个平台 × 每月 1 次,大约每月 $5-15 的 API 费用。对个人项目来说可以接受,对规模化监测来说成本会上升。


SEO + GEO 综合 KPI 体系

把 SEO 和 GEO 的指标放在一起看,才能发现偏科

综合月度报告模板

## SEO + GEO 月度报告 [月份]

### SEO 端(数据来源:GSC + GA4)
| 指标 | 上月 | 本月 | 趋势 |
|------|------|------|------|
| Google 有机点击 | | | ↑↓→ |
| Google 展示次数 | | | |
| Google 平均 CTR | | | |
| Google 平均排名 | | | |
| 百度收录量 | | | |
| GA4 有机流量 | | | |
| 平均参与时间 | | | |

### GEO 端(数据来源:Prompt Testing + GA4 Referral)
| 指标 | 上月 | 本月 | 趋势 |
|------|------|------|------|
| Kimi 引用率 | | | |
| DeepSeek 引用率 | | | |
| 文心一言引用率 | | | |
| ChatGPT 引用率 | | | |
| AI 来源 referral 总流量 | | | |
| 品牌在 AI 中的知晓度 | 无/有/清楚 | | |

### 偏科诊断

SEO 好 + GEO 差 = 内容排名不错但不够"可引用"
→ 行动:加强答案优先段落、数据嵌入、Schema(第 5-6 周内容)

SEO 差 + GEO 好 = AI 引用你但传统排名不行
→ 行动:加强内链、技术 SEO、外链建设(第 4 周内容)

两者都好 = 持续当前策略,扩展新话题集群

两者都差 = 回到基础——内容质量和搜索意图匹配(第 3 周内容)

### 本月关键发现
1.
2.

### 下月行动项
1.
2.

持续优化循环

衡量不是目的——基于数据做决策才是目的。

┌─────────────────────────────────┐
│           分析数据               │
│  每月第一周填写 SEO+GEO 追踪表   │
└──────────────┬──────────────────┘
               │
  ┌────────────┴─────────────┐
  ▼                          ▼
发现问题                   确认有效
"某些查询引用率下降"        "知乎回答被引用率上升"
  │                          │
  ▼                          ▼
形成假设                   扩大应用
"是不是这些内容的           "把有效的回答格式
 数据不够新了?"             推广到更多内容"
  │
  ▼
实施改变
"更新内容数据,
 加入最新测试结果"
  │
  ▼
下月复测
  │
  └──────────────────────────────→ 回到"分析数据"

每个月重复这个循环。SEO 和 GEO 都不是"做一次就完了"的事——它们是持续迭代的过程。三个月的数据才能看出真正的趋势,六个月的数据才能做策略调整。


常见误区

误区 1:“我测试了 Perplexity,发现我被引用了,说明 GEO 做好了”

单次测试的结果波动很大——同一个查询在同一个平台上,不同时间可能给出完全不同的回答。GEO 衡量需要的是月度的、多查询的、多平台的系统性测试,不是偶尔测一次。

误区 2:“GEO 很难衡量,所以不值得测”

不衡量就不知道自己在哪里。哪怕你的 GEO 工作什么效果都没有,知道"没效果"本身就是有价值的信息——它告诉你需要调整策略。

误区 3:“GA4 显示没有 AI 来源的 Referral 流量,说明 GEO 完全没效果”

AI 来源的 Referral 流量只是 GEO 效果的一部分。很多用户在 AI 里看到你的内容被引用后,会记住你的品牌,之后通过直接搜索你的名字找到你——这部分流量会计入"直接流量"或"品牌词搜索",不会出现在 AI Referral 里。Prompt Testing 能看到的"被引用"比 Referral 流量更全面。

误区 4:“竞品被 AI 引用了,我没被引用,说明我的内容不如他们”

不一定。AI 的引用有很多随机性——同一个查询在不同时间引用不同来源是常态。更重要的是看趋势:你的引用率是在上升还是下降?而不是某一次测试结果的绝对值。


本课小结

  1. Prompt Testing 是 GEO 衡量的核心——20-30 个固定查询,每月在 3 个平台上执行
  2. 中文内容测试中文 AI:Kimi、DeepSeek、文心一言、豆包——不要只测 Perplexity
  3. 在 GA4 的 Referral 中追踪 AI 来源流量(包括中文 AI:kimi.moonshot.cn、deepseek.com 等)
  4. 竞品分析:记录竞品被引用情况,理解 AI 对哪类内容有偏好
  5. SEO + GEO 综合仪表盘发现偏科——两端数据不匹配说明策略需要调整
  6. 持续优化循环:分析 → 假设 → 实施 → 复测,三个月才能看出趋势

本周实践:建立你的完整监测体系并执行第一次综合复盘。