第 5 周 · GEO 基础——AI 如何选择引用你

欢迎来到课程的核心地带

从这周开始，我们进入 GEO（Generative Engine Optimization）——这是 2026 年搜索优化最前沿的领域，也是本课程区别于其他 SEO 课程的核心。

前 4 周学了什么（快速回顾）

如果你是按顺序学过来的，这是一个快速复习；如果你是直接跳到第 5 周的，这几条帮你补上前置知识：

第 1 周：搜索引擎的工作原理（爬取→索引→排名），AI 搜索的 RAG 机制，SEO 是地基、GEO 是新楼层
第 2 周：关键词研究——找到用户真正在搜索的词，理解搜索意图（信息型/导航型/交易型/商业调查型）
第 3 周：页面优化（On-Page SEO）——标题、Meta 描述、URL 结构、E-E-A-T 内容质量、内链和图片优化
第 4 周：技术 SEO——Core Web Vitals（网站速度指标）、robots.txt（告诉爬虫能不能进来的配置文件）、Schema Markup（结构化数据，让搜索引擎理解你的内容类型）、站点架构

如果某个词不熟悉，回去翻对应周的课程。第 5 周的内容会经常引用这些概念。

第 1 周我们简单介绍了 GEO 的概念。这节课要深入得多——从学术论文的研究结果出发，建立一套可执行的实战框架。

GEO 的学术起源

GEO 这个概念不是营销圈发明的——它来自严肃的学术研究。

核心论文：

标题：GEO: Generative Engine Optimization
作者团队：Princeton、Georgia Tech、Allen AI 研究所、IIT Delhi
发表：KDD 2024（ACM SIGKDD，数据挖掘领域的顶级会议）
arXiv 编号：2311.09735

论文做了什么

研究团队构建了一个叫 GEO-bench 的基准测试框架，包含 10,000 条多样化用户查询（覆盖 9 个数据集），然后系统性地测试了 9 种不同的内容优化策略，看哪些能提升内容在 AI 生成回答中的可见度。

论文的核心发现

9 种策略的效果（平均可见度提升）：

排名	策略	平均提升	说明
1	添加统计数据	最高 41%	嵌入具体数字、百分比、研究数据
2	添加引述	显著	引用权威来源的直接引语
3	引用来源	显著	链接到权威参考文献
4	流畅度优化	中等	提升文本的可读性和自然流畅度
5	权威性措辞	中等	使用专家级语言和表述
6	技术术语	中等	加入领域相关的精确术语
7	独特用词	中等	使用有辨识度的表达
8	简化语言	中等	简化复杂概念的表述
9	组合策略	最强	如"流畅度 + 统计数据"组合使用

三个关键结论：

统计数据是最有效的单一策略——嵌入具体数字比任何其他优化都管用
组合策略效果最好——不要只用一种方法，要叠加使用
对传统排名低的网站效果更显著——GEO 有"民主化"效应，小站也有机会被 AI 引用

第三点特别重要：你不需要是一个高权威网站才能被 AI 引用。 如果你的内容结构好、数据具体、回答精准，即使你的网站 DA 很低，AI 也可能选中你。

AI 搜索引擎的引用决策机制

第 1 周我们概述了 RAG 管线。现在深入引用决策环节——AI 到底怎么决定引用谁？

五大引用信号

信号 1：权威性——有门槛，但在降低

传统 SEO 中，域名权威（DA）几乎决定一切。在 GEO 中，权威性仍然重要但权重在下降。

高权威站点（外链域名数超过 32,000 个）被 ChatGPT 引用概率是低权威站点的 3.5 倍
但传统域名权威度（DA，Domain Authority，Moz 工具提供的 0-100 评分，数字越高说明外链越丰富、权威性越强）与 AI 引用的相关性已降至 r=0.18（2024 年还是 0.23，相关性在快速下降）
47% 的 AI Overview 引用来自 Google 排名第 5 以下的页面

这意味着：权威性是加分项但不是决定项。内容质量可以弥补权威不足。

信号 2：新鲜度——硬指标

AI 搜索引擎强烈偏好新内容。

85% 的 AI Overview 引用来自过去 2 年内发布的内容
44% 来自 2025 年发布的内容
30 天内更新的内容获 3.2 倍新鲜度加成
Perplexity 偏好 2 个月内的新鲜内容

重要警告：AI 会检测伪造的 dateModified 时间戳。只改日期不改内容不仅无效，还可能被扣分。更新内容时要做实质性修改——新数据、新信息、修正过时内容。

信号 3：内容-答案匹配度——最可控的信号

这是你最能直接影响的信号，也是 GEO 优化的核心。

AI 不是引用整篇文章——它引用的是文章中的特定段落。哪些段落最容易被选中？

特征	数据
40-60 词的"答案块"	最易被直接引用的长度
H2/H3 之间 120-180 词的段落	比稀疏内容多 70% ChatGPT 引用
AI Overview 偏好的语义单元	134-167 词
向量嵌入对齐度 > 0.88	7.3 倍更高的选中率（见下方说明）

“向量嵌入对齐度"是什么意思（白话版）：AI 在理解文字时，会把每个句子转化成一串数字（称为"向量”），用数字来表示这句话的"含义"。当用户的问题和你的某个段落转化成的数字非常接近（对齐度高），AI 就认为这个段落精准回答了这个问题，选中率就高。你不需要知道怎么计算这个数字，但你可以影响它——方法就是让你的段落开头直接回答问题，语义越精准越好。0.88 这个数字是一个技术阈值，过了这个值选中率会跳跃式提升。

简单理解：

太短（< 50 词）：信息不足，AI 判定不值得引用
太长（> 300 词）：AI 难以精准提取
刚好（120-180 词，含一个 40-60 词的核心回答）：最容易被选中

信号 4：结构化程度

正确的 Schema markup 使 AI 选中率提升 73%
含 15+ 已识别实体的页面选中概率提升 4.8 倍
FAQ Schema、对比表格、命名列的数据表格——这些结构让 AI 更高效地解析

这就是第 4 周学的结构化数据在 GEO 中的直接应用。

信号 5：跨平台存在感

出现在 4+ 平台的内容获 2.8 倍引用加成
品牌搜索量与 ChatGPT 引用率的相关系数为 0.334
含统计数据的内容 +22% 引用率
含权威引述的内容 +37% 引用率

这意味着：GEO 不只是优化你的网站——你在 Reddit、知乎、YouTube、LinkedIn 上的存在感也在加分。这是第 7-8 周要详细讲的内容。

GEO 实战框架：三层模型

把上面的研究结论转化为可执行的框架：

第一层：内容可提取性（Content Extractability）

目标：让 AI 能轻松从你的内容中提取出"答案块"。

关键动作：

每个 H2 段落以 2-3 句直接回答开头（答案优先）
核心回答控制在 40-60 词
整个 H2 段落控制在 120-180 词
使用结构化格式：列表、表格、对比矩阵
嵌入具体数据并标注来源

第二层：技术可发现性（Technical Discoverability）

目标：确保 AI 爬虫能找到、读取、理解你的内容。

关键动作：

robots.txt 允许 AI 爬虫（第 4 周会配置；如果你直接跳过来，本周第 2 课也有完整的配置示例）
部署 llms.txt 文件（本周第 2 课详解）
实施 Schema Markup（Article、FAQPage、Person）
保持内容新鲜（90 天更新周期 + 真实的 dateModified）

第三层：实体权威性（Entity Authority）

目标：让 AI 把你识别为某个话题领域的可信来源。

关键动作：

Person Schema + sameAs 跨平台链接
在 Reddit/知乎等平台建立相关话题的存在感
持续输出高质量内容建立话题权威
品牌名在内容中自然出现

不同 AI 平台的差异化策略

三大英文 AI 平台引用仅 11% 重叠——你需要了解各自的偏好：

针对 ChatGPT 优化

60% 查询不触发搜索——品牌知名度（被训练数据记住）很重要
偏好百科全书式、编辑型内容
Wikipedia 引用率最高（7.8%）
策略：写权威的、全面覆盖的长文；确保品牌名在多个权威来源出现

针对 Perplexity 优化

每次都触发实时搜索——实时可搜索性是关键
偏好 Reddit 和社区内容（引用率 6.6-46.7%）
偏好 2 个月内的新鲜内容
策略：保持内容新鲜；在 Reddit 上有活跃存在；对比表格和前置答案表现最好

针对 Google AI Overviews 优化

绑定 Google 有机排名系统，但 47% 引用来自排名 5 以下
来源分布最广（Reddit + YouTube + LinkedIn + 官方来源）
多模态能力——可以引用视频内容
策略：传统 SEO 基础要好；内容多格式（文字+视频+图表）；覆盖多平台

中文 AI 平台——被忽视的 GEO 战场

如果你的目标用户是中文用户，英文平台数据只是参考。你需要了解中文 AI 搜索引擎的引用逻辑：

平台	访问方式	优化重点	和英文平台的对应关系
Kimi（kimi.moonshot.cn）	直接访问	联网搜索，偏好知乎/百度百科来源	类似 Perplexity
DeepSeek（chat.deepseek.com）	直接访问	联网搜索，技术内容引用偏好	类似 ChatGPT + Perplexity
文心一言（yiyan.baidu.com）	直接访问	深度整合百度生态，百家号内容优先	Google AI Overviews
豆包（doubao.com）	直接访问	字节跳动生态，头条号 + 抖音内容	无直接对应

各平台的优化重点

Kimi：对结构化内容响应最好。如果你的知乎回答有清晰的小标题 + 数据点，Kimi 会优先提取。每次测试可以用"请搜索网络资料，回答：[你的目标问题]“来触发联网搜索模式。

DeepSeek：对技术类内容引用质量高。如果你写的是工具评测、技术教程类内容，DeepSeek 是最重要的测试平台。同样需要用联网搜索模式（消息框右侧开启"联网搜索"开关）。

文心一言：百度生态的延伸。在百家号发布的内容更容易被文心一言引用——这是其他平台没有的捷径。如果你已经有百度账号，开通百家号发布内容是进入文心一言引用圈的最快路径。

豆包：抖音/头条号内容的延伸。视频内容 + 字幕转录文本是豆包引用的主要来源。如果你在做抖音或头条号，豆包是你的天然渠道。

中文 GEO 的核心原则

中文 AI 平台与英文平台最大的不同是平台生态绑定：

百度系（文心一言/百度 AI 搜索）→ 优先引用百家号、百度百科、知乎（百度有知乎数据合作）
字节系（豆包）→ 优先引用头条号、抖音字幕
中立平台（Kimi、DeepSeek）→ 更广泛地引用知乎、独立网站、行业媒体

实操建议：不管你做哪个方向，知乎是中文 GEO 的必经平台——它被所有中文 AI 搜索引擎引用，优先级相当于英文生态中的 Reddit。

常见误区

误区 1：“GEO 只对英文内容有效，中文搜索还是 SEO 主导”

不对。中文 AI 搜索（Kimi、DeepSeek、文心一言）的用户数量在 2025-2026 年快速增长。Kimi 月活已超过 3000 万（2025 年数据）。中文内容的 GEO 优化是现在就该布局的，不是"等以后再说”。

误区 2：“统计数据越多越好——我把所有数字都堆到文章里”

堆砌数据反而有害。AI 会判断数据是否与上下文匹配、来源是否可信。无来源的数字（“据研究显示，90% 的用户……"）不仅不会加分，还会让 AI 降低对整篇内容的信任度。关键是：数据要有具体来源，且与段落的核心问题直接相关。

误区 3：“我的文章已经 SEO 优化得很好了，GEO 不用另外做”

SEO 和 GEO 的评分维度不同。SEO 看的是关键词覆盖、外链、技术指标；GEO 看的是"答案的可提取性”——段落开头是否直接回答问题、内容是否有具体数据支撑、跨平台存在感。一篇 SEO 高分文章如果全是连续长段落、没有答案优先结构，GEO 表现可能很差。

误区 4：“更新日期改了就算’内容更新’”

AI 能检测这种行为。真正有效的内容更新必须包含实质变化：新数据、修正过时数字、增加新的观点或案例。只改 dateModified 不改内容，Perplexity 等平台的算法会识别出这是虚假更新，不会给新鲜度加成，某些平台还会因此降低内容信任分。

本课小结

GEO 来自 KDD 2024 学术论文——不是营销概念，是经过实验验证的方法
添加统计数据是最有效的单一策略（最高 41% 提升）
AI 引用决策的五大信号：权威性、新鲜度、内容-答案匹配度、结构化程度、跨平台存在感
GEO 有"民主化"效应——小站也有机会被引用，不需要高 DA
实战三层框架：内容可提取性 → 技术可发现性 → 实体权威性
三大 AI 平台引用仅 11% 重叠——需要差异化策略

下一课：llms.txt——专门为 AI 爬虫设计的网站导航文件。

欢迎来到课程的核心地带#

前 4 周学了什么（快速回顾）#

GEO 的学术起源#

论文做了什么#

论文的核心发现#

AI 搜索引擎的引用决策机制#

五大引用信号#

信号 1：权威性——有门槛，但在降低#

信号 2：新鲜度——硬指标#

信号 3：内容-答案匹配度——最可控的信号#

信号 4：结构化程度#

信号 5：跨平台存在感#

GEO 实战框架：三层模型#

第一层：内容可提取性（Content Extractability）#

第二层：技术可发现性（Technical Discoverability）#

第三层：实体权威性（Entity Authority）#

不同 AI 平台的差异化策略#

针对 ChatGPT 优化#

针对 Perplexity 优化#

针对 Google AI Overviews 优化#

中文 AI 平台——被忽视的 GEO 战场#

各平台的优化重点#

中文 GEO 的核心原则#

常见误区#

本课小结#

欢迎来到课程的核心地带

前 4 周学了什么（快速回顾）

GEO 的学术起源

论文做了什么

论文的核心发现

AI 搜索引擎的引用决策机制

五大引用信号

信号 1：权威性——有门槛，但在降低

信号 2：新鲜度——硬指标

信号 3：内容-答案匹配度——最可控的信号

信号 4：结构化程度

信号 5：跨平台存在感

GEO 实战框架：三层模型

第一层：内容可提取性（Content Extractability）

第二层：技术可发现性（Technical Discoverability）

第三层：实体权威性（Entity Authority）

不同 AI 平台的差异化策略

针对 ChatGPT 优化

针对 Perplexity 优化

针对 Google AI Overviews 优化

中文 AI 平台——被忽视的 GEO 战场

各平台的优化重点

中文 GEO 的核心原则

常见误区

本课小结