第 9 周 · 衡量、监测与迭代

GEO 衡量的挑战

和 SEO 不同，GEO 的衡量还处于早期阶段。

SEO 有成熟的工具：Google Search Console 直接告诉你排名、点击、展示——精确到每个关键词。

GEO 没有一个"AI Search Console"。AI 的回答是动态生成的——同一个问题在不同时间、不同用户那里可能引用不同的来源。没有一个工具能告诉你"AI 搜索出现你的内容多少次"。

但这不意味着不能衡量——只是需要不同的方法。本课教你三种方法，从零成本手动测试到自动化系统，按你的能力和需求选择。

方法 1：Prompt Testing（提示词测试）

这是目前最可靠的 GEO 衡量方法——免费、不需要任何工具，你在第 5 周已经做过了基线测试。现在把它系统化，变成每月的例行监测。

测试平台选择

英文内容 / 面向全球用户：

ChatGPT（chatgpt.com，打开"Search the web"功能）
Perplexity（perplexity.ai）
Google AI Overviews（google.com，需要用英文查询，并确认 AIO 出现了）

中文内容 / 面向中文用户：

Kimi（kimi.moonshot.cn）
DeepSeek（chat.deepseek.com）
文心一言（yiyan.baidu.com）
豆包（doubao.com）

如果你面向中文用户，优先测试中文 AI——它们才是你目标用户实际使用的工具。用 Perplexity 测试中文内容，结果没有参考价值。

标准化测试流程

步骤 1：维护一个固定的测试查询集（20-30 个）

从第 5 周的基线测试开始，维护这个查询集，每月用相同的查询测试：

分类：
- 5 个品牌相关查询（直接问你的品牌名/笔名）
  例："[你的名字]的评测可信吗？" "[品牌名]是做什么的？"

- 8-10 个话题通用查询（你的话题领域的核心问题）
  例："2026 年最好的降噪耳机是哪款？"
      "Sony XM6 值得买吗？"
      "降噪耳机选购指南"

- 5 个对比/评测查询（AI 最爱引用的类型）
  例："Sony XM6 和 AirPods Max 2 哪个好？"
      "XM6 vs 安克 Q45 有什么区别？"

- 5 个问题型/场景型查询
  例："地铁通勤用什么降噪耳机合适？"
      "飞机上戴降噪耳机有用吗？"

重要：查询集要保持稳定——这样才能做前后对比。每季度可以增加新查询（覆盖新发布的内容），但不要删除旧的（需要连续数据）。

步骤 2：每月执行测试

每月第一周，用相同的查询集测试：

用无痕浏览器（避免个性化推荐影响结果）
每个查询在 3 个平台上各测试一次
每次测试记录：是否被引用、引用位置（第几条来源）、引用的是网站还是第三方平台

步骤 3：记录数据

| 查询 | 平台 | 被引用 | 引用位置 | 内容来源 | 竞品引用 |
|------|------|--------|---------|---------|---------|
| "XM6和AirPods Max哪个好" | Kimi | 是 | #2 | 知乎回答 | 极客湾 |
| "XM6和AirPods Max哪个好" | DeepSeek | 否 | - | - | 少数派、ITHome |
| "XM6和AirPods Max哪个好" | 文心一言 | 是 | #1 | 你的网站 | - |
| "降噪耳机推荐 2026" | Kimi | 否 | - | - | 少数派、知乎 |
...

步骤 4：计算 GEO 核心指标

AI 引用率 = 被引用的查询数 / 总测试查询数

分平台计算：
- Kimi 引用率：[x/20] = [x%]
- DeepSeek 引用率：[x/20] = [x%]
- 文心一言引用率：[x/20] = [x%]
- ChatGPT 引用率（如有英文内容）：[x/20] = [x%]
- 综合引用率：[总引用次数 / (20 × 测试平台数)] = [x%]

月度趋势追踪

把每月的结果填入追踪表：

| 月份 | Kimi | DeepSeek | 文心一言 | ChatGPT | 综合引用率 |
|------|------|---------|---------|---------|----------|
| 4月  | [x%] | [x%]    | [x%]    | [x%]    | [x%]     |
| 5月  | [x%] | [x%]    | [x%]    | [x%]    | [x%]     |
| 6月  | [x%] | [x%]    | [x%]    | [x%]    | [x%]     |

如何解读趋势：

综合引用率上升 → GEO 工作有效，继续当前策略
某个平台引用率下降 → 该平台最近的算法更新可能改变了引用偏好，调整该平台的内容策略
被引用的来源从"知乎"变成了"你的网站" → 你的网站权威度在提升

方法 2：GA4 中的 AI 流量追踪

第 1 课讲过，在 GA4 的 Referral（引荐）报告中可以追踪来自 AI 工具的流量：

如何设置自定义报告：

在 GA4 打开"报告" → “流量获取”
把"来源/媒介"加入作为细分维度
筛选包含以下关键词的来源：

英文 AI 来源：
- chat.openai.com
- perplexity.ai
- gemini.google.com
- copilot.microsoft.com

中文 AI 来源：
- kimi.moonshot.cn
- chat.deepseek.com
- yiyan.baidu.com（文心一言）
- doubao.com（豆包）

为什么 AI 来源流量很重要：

这是 GEO 产生实际商业价值最直接的证明。Prompt Testing 测试"有没有被引用"，Referral 流量测试"引用有没有带来真实用户"。两者结合才能完整评估 GEO 效果。

注意：很多 AI 用户看到你被引用后，会直接在 AI 里继续对话，或者通过复制 URL 访问，而不是点击链接——所以 AI 实际带来的用户关注通常比 Referral 流量数字显示的更多。

方法 3：竞品分析

除了追踪自己的 GEO 可见性，还要追踪竞品的可见性——你不是在真空中竞争。

如何分析：

在 Prompt Testing 时，同时记录竞品被引用的情况（上面的表格有"竞品引用"列）。

每月分析：

哪些竞品在哪些查询中稳定出现？
他们的什么内容被引用（网站文章、知乎回答、还是其他）？
他们的引用内容有什么特征（比你的回答更短？有更多数据？格式不同？）

这不是为了复制竞品，而是理解 AI 对哪类内容有偏好，然后在自己的内容中也体现这些特征。

方法 4：商业监测工具（可选）

如果预算允许，这些工具可以自动化 Prompt Testing 的过程：

工具	核心能力	价格	适合谁
Otterly.AI	Prompt 测试、可见性审计、竞品对比	$29/月起	个人/小团队入门首选
Peec AI	可见性/位置/情感追踪	$95/月起	需要更细致追踪的团队
Brand24	跨平台品牌追踪（包括 AI 平台）	中等	品牌层面的监测
Ahrefs Brand Radar	AI 声量份额分析	Ahrefs 订阅内	已有 Ahrefs 的用户

注意：以上工具主要覆盖英文 AI 平台（ChatGPT、Perplexity 等），对中文 AI 平台（Kimi、文心一言）的覆盖还有限。中文内容的监测目前主要靠手动 Prompt Testing。

对初学者的建议：先用手动 Prompt Testing（完全免费），确认 GEO 策略有效后再考虑付费工具。付费工具节省的是时间，不是策略本身。

方法 5：DIY 自动化监测（有编程能力的读者）

如果你有 Python 基础，可以搭建一个简单的自动化监测系统：

基本架构

Python 脚本
    ↓
调用 Perplexity API / OpenAI API
（Perplexity 的 API 文档在 docs.perplexity.ai，
 OpenAI 的在 platform.openai.com/docs）
    ↓
发送标准化查询集
    ↓
解析返回的引用 URL
    ↓
与你的域名列表匹配（你的网站、知乎主页等）
    ↓
存入数据库（SQLite 就够）
    ↓
生成月度报告

最简实现思路

# 伪代码示意（说明逻辑，不是完整可运行代码）

from openai import OpenAI  # 或 perplexity SDK
import sqlite3

queries = [
    "2026年最好的降噪耳机",
    "Sony XM6 vs AirPods Max 2 哪个好",
    ...
]
my_domains = ["yoursite.com", "zhihu.com/people/your-id"]

client = OpenAI(api_key="你的API密钥")

for query in queries:
    response = client.chat.completions.create(
        model="gpt-4-turbo",
        messages=[{"role": "user", "content": query}],
        # 开启网络搜索功能
    )
    
    # 提取引用的 URL 列表
    citations = extract_citations_from_response(response)
    
    # 检查是否包含你的域名
    for domain in my_domains:
        if any(domain in url for url in citations):
            log_citation(query, domain, citations)
    
    # 记录竞品引用
    log_all_citations(query, citations)

注意：API 调用有成本。20 个查询 × 3 个平台 × 每月 1 次，大约每月 $5-15 的 API 费用。对个人项目来说可以接受，对规模化监测来说成本会上升。

SEO + GEO 综合 KPI 体系

把 SEO 和 GEO 的指标放在一起看，才能发现偏科。

综合月度报告模板

## SEO + GEO 月度报告 [月份]

### SEO 端（数据来源：GSC + GA4）
| 指标 | 上月 | 本月 | 趋势 |
|------|------|------|------|
| Google 有机点击 | | | ↑↓→ |
| Google 展示次数 | | | |
| Google 平均 CTR | | | |
| Google 平均排名 | | | |
| 百度收录量 | | | |
| GA4 有机流量 | | | |
| 平均参与时间 | | | |

### GEO 端（数据来源：Prompt Testing + GA4 Referral）
| 指标 | 上月 | 本月 | 趋势 |
|------|------|------|------|
| Kimi 引用率 | | | |
| DeepSeek 引用率 | | | |
| 文心一言引用率 | | | |
| ChatGPT 引用率 | | | |
| AI 来源 referral 总流量 | | | |
| 品牌在 AI 中的知晓度 | 无/有/清楚 | | |

### 偏科诊断

SEO 好 + GEO 差 = 内容排名不错但不够"可引用"
→ 行动：加强答案优先段落、数据嵌入、Schema（第 5-6 周内容）

SEO 差 + GEO 好 = AI 引用你但传统排名不行
→ 行动：加强内链、技术 SEO、外链建设（第 4 周内容）

两者都好 = 持续当前策略，扩展新话题集群

两者都差 = 回到基础——内容质量和搜索意图匹配（第 3 周内容）

### 本月关键发现
1.
2.

### 下月行动项
1.
2.

持续优化循环

衡量不是目的——基于数据做决策才是目的。

┌─────────────────────────────────┐
│           分析数据               │
│  每月第一周填写 SEO+GEO 追踪表   │
└──────────────┬──────────────────┘
               │
  ┌────────────┴─────────────┐
  ▼                          ▼
发现问题                   确认有效
"某些查询引用率下降"        "知乎回答被引用率上升"
  │                          │
  ▼                          ▼
形成假设                   扩大应用
"是不是这些内容的           "把有效的回答格式
 数据不够新了？"             推广到更多内容"
  │
  ▼
实施改变
"更新内容数据，
 加入最新测试结果"
  │
  ▼
下月复测
  │
  └──────────────────────────────→ 回到"分析数据"

每个月重复这个循环。SEO 和 GEO 都不是"做一次就完了"的事——它们是持续迭代的过程。三个月的数据才能看出真正的趋势，六个月的数据才能做策略调整。

常见误区

误区 1：“我测试了 Perplexity，发现我被引用了，说明 GEO 做好了”

单次测试的结果波动很大——同一个查询在同一个平台上，不同时间可能给出完全不同的回答。GEO 衡量需要的是月度的、多查询的、多平台的系统性测试，不是偶尔测一次。

误区 2：“GEO 很难衡量，所以不值得测”

不衡量就不知道自己在哪里。哪怕你的 GEO 工作什么效果都没有，知道"没效果"本身就是有价值的信息——它告诉你需要调整策略。

误区 3：“GA4 显示没有 AI 来源的 Referral 流量，说明 GEO 完全没效果”

AI 来源的 Referral 流量只是 GEO 效果的一部分。很多用户在 AI 里看到你的内容被引用后，会记住你的品牌，之后通过直接搜索你的名字找到你——这部分流量会计入"直接流量"或"品牌词搜索"，不会出现在 AI Referral 里。Prompt Testing 能看到的"被引用"比 Referral 流量更全面。

误区 4：“竞品被 AI 引用了，我没被引用，说明我的内容不如他们”

不一定。AI 的引用有很多随机性——同一个查询在不同时间引用不同来源是常态。更重要的是看趋势：你的引用率是在上升还是下降？而不是某一次测试结果的绝对值。

本课小结

Prompt Testing 是 GEO 衡量的核心——20-30 个固定查询，每月在 3 个平台上执行
中文内容测试中文 AI：Kimi、DeepSeek、文心一言、豆包——不要只测 Perplexity
在 GA4 的 Referral 中追踪 AI 来源流量（包括中文 AI：kimi.moonshot.cn、deepseek.com 等）
竞品分析：记录竞品被引用情况，理解 AI 对哪类内容有偏好
SEO + GEO 综合仪表盘发现偏科——两端数据不匹配说明策略需要调整
持续优化循环：分析 → 假设 → 实施 → 复测，三个月才能看出趋势

本周实践：建立你的完整监测体系并执行第一次综合复盘。

GEO 衡量的挑战#

方法 1：Prompt Testing（提示词测试）#

测试平台选择#

标准化测试流程#

月度趋势追踪#

方法 2：GA4 中的 AI 流量追踪#

方法 3：竞品分析#

方法 4：商业监测工具（可选）#

方法 5：DIY 自动化监测（有编程能力的读者）#

基本架构#

最简实现思路#

SEO + GEO 综合 KPI 体系#

综合月度报告模板#

持续优化循环#

常见误区#

本课小结#