第 5 周 · GEO 基础——AI 如何选择引用你
欢迎来到课程的核心地带
从这周开始,我们进入 GEO(Generative Engine Optimization)——这是 2026 年搜索优化最前沿的领域,也是本课程区别于其他 SEO 课程的核心。
前 4 周学了什么(快速回顾)
如果你是按顺序学过来的,这是一个快速复习;如果你是直接跳到第 5 周的,这几条帮你补上前置知识:
- 第 1 周:搜索引擎的工作原理(爬取→索引→排名),AI 搜索的 RAG 机制,SEO 是地基、GEO 是新楼层
- 第 2 周:关键词研究——找到用户真正在搜索的词,理解搜索意图(信息型/导航型/交易型/商业调查型)
- 第 3 周:页面优化(On-Page SEO)——标题、Meta 描述、URL 结构、E-E-A-T 内容质量、内链和图片优化
- 第 4 周:技术 SEO——Core Web Vitals(网站速度指标)、robots.txt(告诉爬虫能不能进来的配置文件)、Schema Markup(结构化数据,让搜索引擎理解你的内容类型)、站点架构
如果某个词不熟悉,回去翻对应周的课程。第 5 周的内容会经常引用这些概念。
第 1 周我们简单介绍了 GEO 的概念。这节课要深入得多——从学术论文的研究结果出发,建立一套可执行的实战框架。
GEO 的学术起源
GEO 这个概念不是营销圈发明的——它来自严肃的学术研究。
核心论文:
- 标题:GEO: Generative Engine Optimization
- 作者团队:Princeton、Georgia Tech、Allen AI 研究所、IIT Delhi
- 发表:KDD 2024(ACM SIGKDD,数据挖掘领域的顶级会议)
- arXiv 编号:2311.09735
论文做了什么
研究团队构建了一个叫 GEO-bench 的基准测试框架,包含 10,000 条多样化用户查询(覆盖 9 个数据集),然后系统性地测试了 9 种不同的内容优化策略,看哪些能提升内容在 AI 生成回答中的可见度。
论文的核心发现
9 种策略的效果(平均可见度提升):
| 排名 | 策略 | 平均提升 | 说明 |
|---|---|---|---|
| 1 | 添加统计数据 | 最高 41% | 嵌入具体数字、百分比、研究数据 |
| 2 | 添加引述 | 显著 | 引用权威来源的直接引语 |
| 3 | 引用来源 | 显著 | 链接到权威参考文献 |
| 4 | 流畅度优化 | 中等 | 提升文本的可读性和自然流畅度 |
| 5 | 权威性措辞 | 中等 | 使用专家级语言和表述 |
| 6 | 技术术语 | 中等 | 加入领域相关的精确术语 |
| 7 | 独特用词 | 中等 | 使用有辨识度的表达 |
| 8 | 简化语言 | 中等 | 简化复杂概念的表述 |
| 9 | 组合策略 | 最强 | 如"流畅度 + 统计数据"组合使用 |
三个关键结论:
- 统计数据是最有效的单一策略——嵌入具体数字比任何其他优化都管用
- 组合策略效果最好——不要只用一种方法,要叠加使用
- 对传统排名低的网站效果更显著——GEO 有"民主化"效应,小站也有机会被 AI 引用
第三点特别重要:你不需要是一个高权威网站才能被 AI 引用。 如果你的内容结构好、数据具体、回答精准,即使你的网站 DA 很低,AI 也可能选中你。
AI 搜索引擎的引用决策机制
第 1 周我们概述了 RAG 管线。现在深入引用决策环节——AI 到底怎么决定引用谁?
五大引用信号
信号 1:权威性——有门槛,但在降低
传统 SEO 中,域名权威(DA)几乎决定一切。在 GEO 中,权威性仍然重要但权重在下降。
- 高权威站点(外链域名数超过 32,000 个)被 ChatGPT 引用概率是低权威站点的 3.5 倍
- 但传统域名权威度(DA,Domain Authority,Moz 工具提供的 0-100 评分,数字越高说明外链越丰富、权威性越强)与 AI 引用的相关性已降至 r=0.18(2024 年还是 0.23,相关性在快速下降)
- 47% 的 AI Overview 引用来自 Google 排名第 5 以下的页面
这意味着:权威性是加分项但不是决定项。内容质量可以弥补权威不足。
信号 2:新鲜度——硬指标
AI 搜索引擎强烈偏好新内容。
- 85% 的 AI Overview 引用来自过去 2 年内发布的内容
- 44% 来自 2025 年发布的内容
- 30 天内更新的内容获 3.2 倍新鲜度加成
- Perplexity 偏好 2 个月内的新鲜内容
重要警告:AI 会检测伪造的 dateModified 时间戳。只改日期不改内容不仅无效,还可能被扣分。更新内容时要做实质性修改——新数据、新信息、修正过时内容。
信号 3:内容-答案匹配度——最可控的信号
这是你最能直接影响的信号,也是 GEO 优化的核心。
AI 不是引用整篇文章——它引用的是文章中的特定段落。哪些段落最容易被选中?
| 特征 | 数据 |
|---|---|
| 40-60 词的"答案块" | 最易被直接引用的长度 |
| H2/H3 之间 120-180 词的段落 | 比稀疏内容多 70% ChatGPT 引用 |
| AI Overview 偏好的语义单元 | 134-167 词 |
| 向量嵌入对齐度 > 0.88 | 7.3 倍更高的选中率(见下方说明) |
“向量嵌入对齐度"是什么意思(白话版):AI 在理解文字时,会把每个句子转化成一串数字(称为"向量”),用数字来表示这句话的"含义"。当用户的问题和你的某个段落转化成的数字非常接近(对齐度高),AI 就认为这个段落精准回答了这个问题,选中率就高。你不需要知道怎么计算这个数字,但你可以影响它——方法就是让你的段落开头直接回答问题,语义越精准越好。0.88 这个数字是一个技术阈值,过了这个值选中率会跳跃式提升。
简单理解:
- 太短(< 50 词):信息不足,AI 判定不值得引用
- 太长(> 300 词):AI 难以精准提取
- 刚好(120-180 词,含一个 40-60 词的核心回答):最容易被选中
信号 4:结构化程度
- 正确的 Schema markup 使 AI 选中率提升 73%
- 含 15+ 已识别实体的页面选中概率提升 4.8 倍
- FAQ Schema、对比表格、命名列的数据表格——这些结构让 AI 更高效地解析
这就是第 4 周学的结构化数据在 GEO 中的直接应用。
信号 5:跨平台存在感
- 出现在 4+ 平台的内容获 2.8 倍引用加成
- 品牌搜索量与 ChatGPT 引用率的相关系数为 0.334
- 含统计数据的内容 +22% 引用率
- 含权威引述的内容 +37% 引用率
这意味着:GEO 不只是优化你的网站——你在 Reddit、知乎、YouTube、LinkedIn 上的存在感也在加分。这是第 7-8 周要详细讲的内容。
GEO 实战框架:三层模型
把上面的研究结论转化为可执行的框架:
第一层:内容可提取性(Content Extractability)
目标:让 AI 能轻松从你的内容中提取出"答案块"。
关键动作:
- 每个 H2 段落以 2-3 句直接回答开头(答案优先)
- 核心回答控制在 40-60 词
- 整个 H2 段落控制在 120-180 词
- 使用结构化格式:列表、表格、对比矩阵
- 嵌入具体数据并标注来源
第二层:技术可发现性(Technical Discoverability)
目标:确保 AI 爬虫能找到、读取、理解你的内容。
关键动作:
- robots.txt 允许 AI 爬虫(第 4 周会配置;如果你直接跳过来,本周第 2 课也有完整的配置示例)
- 部署
llms.txt文件(本周第 2 课详解) - 实施 Schema Markup(Article、FAQPage、Person)
- 保持内容新鲜(90 天更新周期 + 真实的 dateModified)
第三层:实体权威性(Entity Authority)
目标:让 AI 把你识别为某个话题领域的可信来源。
关键动作:
- Person Schema + sameAs 跨平台链接
- 在 Reddit/知乎等平台建立相关话题的存在感
- 持续输出高质量内容建立话题权威
- 品牌名在内容中自然出现
不同 AI 平台的差异化策略
三大英文 AI 平台引用仅 11% 重叠——你需要了解各自的偏好:
针对 ChatGPT 优化
- 60% 查询不触发搜索——品牌知名度(被训练数据记住)很重要
- 偏好百科全书式、编辑型内容
- Wikipedia 引用率最高(7.8%)
- 策略:写权威的、全面覆盖的长文;确保品牌名在多个权威来源出现
针对 Perplexity 优化
- 每次都触发实时搜索——实时可搜索性是关键
- 偏好 Reddit 和社区内容(引用率 6.6-46.7%)
- 偏好 2 个月内的新鲜内容
- 策略:保持内容新鲜;在 Reddit 上有活跃存在;对比表格和前置答案表现最好
针对 Google AI Overviews 优化
- 绑定 Google 有机排名系统,但 47% 引用来自排名 5 以下
- 来源分布最广(Reddit + YouTube + LinkedIn + 官方来源)
- 多模态能力——可以引用视频内容
- 策略:传统 SEO 基础要好;内容多格式(文字+视频+图表);覆盖多平台
中文 AI 平台——被忽视的 GEO 战场
如果你的目标用户是中文用户,英文平台数据只是参考。你需要了解中文 AI 搜索引擎的引用逻辑:
| 平台 | 访问方式 | 优化重点 | 和英文平台的对应关系 |
|---|---|---|---|
| Kimi(kimi.moonshot.cn) | 直接访问 | 联网搜索,偏好知乎/百度百科来源 | 类似 Perplexity |
| DeepSeek(chat.deepseek.com) | 直接访问 | 联网搜索,技术内容引用偏好 | 类似 ChatGPT + Perplexity |
| 文心一言(yiyan.baidu.com) | 直接访问 | 深度整合百度生态,百家号内容优先 | Google AI Overviews |
| 豆包(doubao.com) | 直接访问 | 字节跳动生态,头条号 + 抖音内容 | 无直接对应 |
各平台的优化重点
Kimi:对结构化内容响应最好。如果你的知乎回答有清晰的小标题 + 数据点,Kimi 会优先提取。每次测试可以用"请搜索网络资料,回答:[你的目标问题]“来触发联网搜索模式。
DeepSeek:对技术类内容引用质量高。如果你写的是工具评测、技术教程类内容,DeepSeek 是最重要的测试平台。同样需要用联网搜索模式(消息框右侧开启"联网搜索"开关)。
文心一言:百度生态的延伸。在百家号发布的内容更容易被文心一言引用——这是其他平台没有的捷径。如果你已经有百度账号,开通百家号发布内容是进入文心一言引用圈的最快路径。
豆包:抖音/头条号内容的延伸。视频内容 + 字幕转录文本是豆包引用的主要来源。如果你在做抖音或头条号,豆包是你的天然渠道。
中文 GEO 的核心原则
中文 AI 平台与英文平台最大的不同是平台生态绑定:
- 百度系(文心一言/百度 AI 搜索)→ 优先引用百家号、百度百科、知乎(百度有知乎数据合作)
- 字节系(豆包)→ 优先引用头条号、抖音字幕
- 中立平台(Kimi、DeepSeek)→ 更广泛地引用知乎、独立网站、行业媒体
实操建议:不管你做哪个方向,知乎是中文 GEO 的必经平台——它被所有中文 AI 搜索引擎引用,优先级相当于英文生态中的 Reddit。
常见误区
误区 1:“GEO 只对英文内容有效,中文搜索还是 SEO 主导”
不对。中文 AI 搜索(Kimi、DeepSeek、文心一言)的用户数量在 2025-2026 年快速增长。Kimi 月活已超过 3000 万(2025 年数据)。中文内容的 GEO 优化是现在就该布局的,不是"等以后再说”。
误区 2:“统计数据越多越好——我把所有数字都堆到文章里”
堆砌数据反而有害。AI 会判断数据是否与上下文匹配、来源是否可信。无来源的数字(“据研究显示,90% 的用户……")不仅不会加分,还会让 AI 降低对整篇内容的信任度。关键是:数据要有具体来源,且与段落的核心问题直接相关。
误区 3:“我的文章已经 SEO 优化得很好了,GEO 不用另外做”
SEO 和 GEO 的评分维度不同。SEO 看的是关键词覆盖、外链、技术指标;GEO 看的是"答案的可提取性”——段落开头是否直接回答问题、内容是否有具体数据支撑、跨平台存在感。一篇 SEO 高分文章如果全是连续长段落、没有答案优先结构,GEO 表现可能很差。
误区 4:“更新日期改了就算’内容更新’”
AI 能检测这种行为。真正有效的内容更新必须包含实质变化:新数据、修正过时数字、增加新的观点或案例。只改 dateModified 不改内容,Perplexity 等平台的算法会识别出这是虚假更新,不会给新鲜度加成,某些平台还会因此降低内容信任分。
本课小结
- GEO 来自 KDD 2024 学术论文——不是营销概念,是经过实验验证的方法
- 添加统计数据是最有效的单一策略(最高 41% 提升)
- AI 引用决策的五大信号:权威性、新鲜度、内容-答案匹配度、结构化程度、跨平台存在感
- GEO 有"民主化"效应——小站也有机会被引用,不需要高 DA
- 实战三层框架:内容可提取性 → 技术可发现性 → 实体权威性
- 三大 AI 平台引用仅 11% 重叠——需要差异化策略
下一课:llms.txt——专门为 AI 爬虫设计的网站导航文件。