一个让人无语的发现
你已经做完前 4 课:内容质量 E-E-A-T 80 分、段落 Citability 80 分、Brand Authority 5 大平台都建好。
现在你打开 Perplexity,搜你品牌名 + 你最想被引用的查询,AI 给的答案里仍然没有你。
不是 AI 看到了选择不引用你,是 AI 根本没看到你。
让我们做一次直接的检测。打开终端,跑一行命令:
curl -s "https://yoursite.com/your-best-page" | grep "你这一页里的核心句子"
3 种结果:
- grep 命中 → 你的内容在原始 HTML 里,AI 爬虫能读到
- grep 没命中、但浏览器能看到内容 → 你的内容是 JS 渲染出来的,AI 爬虫看到空白
- 整个 curl 没返回 → 你的服务器在屏蔽爬虫 / 网络问题
第 2 种是最常见、也最隐蔽的状态:你的内容在浏览器里看着完美,但 AI 爬虫拿到的是一个空 div。
这就是这一课的核心:Technical 维度只占 6 维体系的 15%,但它能让前面 70% 的努力归零。
这一课讲清楚 4 件事:
- SSR(服务端渲染)是 GEO 时代的生死线:AI 爬虫不执行 JavaScript
- 14 个 AI 爬虫 user-agent 完整清单 + robots.txt 配置
- Core Web Vitals 三指标(LCP / INP / CLS)的实操阈值和修复
- Mobile-First Crawling:Google 2024 年 7 月起完全转移
6 维体系的 8 大类技术权重
Technical 维度的 15 分按 8 大类分配。下面这张图把 8 类权重摆出来,让你看清每类的相对重要性。
Technical 维度 8 大类权重分布
① Crawlability(15)
可爬性:robots.txt 校验 / AI 爬虫访问 / XML Sitemap / 爬取深度 / Noindex 管理。AI 爬虫被封 = 这一项 0 分,全维度归零。
GEO 第一道门
② Server-Side Rendering(15)
GEO 关键:AI 爬虫不执行 JavaScript。React/Vue/Angular 客户端渲染站点对 AI 爬虫看到的是空白页。整页 CSR = 0 分。
不可妥协的生死线
③ Page Speed & Server(15)
TTFB < 800ms / 总页重 < 2MB / 图片优化 / 代码拆分 / 缓存 / CDN。慢站让爬虫超时放弃,且影响用户体验。
性能直接影响爬取频率
④ Core Web Vitals(15)
LCP < 2.5s / INP < 200ms / CLS < 0.1。Google 直接排名信号;INP 已替代 FID(2024-3)。
用真实用户字段数据 75 百分位
⑤ Indexability(12)
Canonical / 重复内容 / 分页 / Hreflang / 索引膨胀。不被索引 = 不被引用。
可爬之后的下一道门
⑥ Security(10)
HTTPS 强制 / 安全头(HSTS / CSP / X-Content-Type-Options 等)。AI 倾向引用安全合格的站。
2026 年是基线,不是加分项
⑦ Mobile Optimization(10)
2024 年 7 月起 Google 完全用 mobile Googlebot 抓所有站。无 desktop 抓取。响应式 / 触控目标 ≥ 48px / 移动内容对等。
不工作 = 对 Google 不工作
⑧ URL Structure(8)
干净 URL / 逻辑层级 / 重定向链 ≤ 1 跳 / 参数处理。爬取效率与索引质量。
低权重但容易踩坑
关键观察:4 个 15 分的"最高权重项"(Crawlability / SSR / Page Speed / Core Web Vitals)任何一项不及格都会拖垮整个 Technical 维度。先把这 4 项做到 80+,再去优化剩下 4 项。
常见问题
Technical 只占 6 维体系的 15%——为什么这么强调"它能让前面所有维度归零"?
因为前面 3 维(Citability 25% + Brand Authority 20% + E-E-A-T 内容质量 25%)合计 70%——但这 70% 都建立在"AI 爬虫能读到你的内容"这个前提上。如果 GPTBot 抓你的页面看到空白(典型纯 React 客户端渲染站),你 80 分的内容质量、80 分的段落 Citability、80 分的 Brand Authority 全都拿不到——AI 看不到等于不存在。Technical 不是加分项,是入场券——它从总分上拿不走太多分,但缺一项关键技术细节会让前面所有努力归零。
我用的是 Vercel + Next.js / Nuxt——SSR 是不是默认就有了?
大部分情况是,但有个细节坑。Next.js 默认 App Router 是 SSR / SSG(好),但如果你用了 `"use client"` 把整页转成客户端渲染,或者用 `dynamic` 关掉 SSR,AI 爬虫看到的就是空白。Nuxt 的 `<ClientOnly>` 包裹的部分也是。判别方法:`curl https://yoursite.com/some-page | grep "你的页面正文一段"`——如果 grep 没命中,就是 CSR 状态。这一课里有具体的 SSR 检测方法。
我封了 GPTBot 是不是就完全屏蔽 ChatGPT 引用了?
不一定,但绝大概率是。GPTBot 是 OpenAI 训练数据爬虫;OpenAI 还有 OAI-SearchBot(搜索专用)和 ChatGPT-User(浏览模式)。三者之中你封了任何一个都会损失对应场景的引用——封 GPTBot 影响训练数据收录、封 OAI-SearchBot 影响 ChatGPT 实时搜索、封 ChatGPT-User 影响用户在 ChatGPT 里点击你网站时的预览。多数情况下三个都该开。如果有版权敏感内容,IETF 草案的 Content-Signal 指令(`ai-train=no, search=yes`)是更细粒度的方案。
我的 Core Web Vitals 一直显示橙色——是不是要全栈重构?
99% 情况不需要。CWV 三项指标(LCP / INP / CLS)大多数性能问题来自 3-5 个具体技术细节:LCP 慢通常是首屏图没 preload + 阻塞渲染 CSS;INP 慢通常是大 JS bundle 没拆 + 第三方脚本同步加载;CLS 高通常是图片没设宽高 + 字体加载导致重排。挨个修这些细节就够了——重构整站很少是必要的。本课"Core Web Vitals 三指标"部分有具体修复优先级。
我做的是中文站,Technical 这套适用吗?还是得看中文版的标准?
Technical 部分中英文几乎完全通用——因为爬虫规则、HTTP 协议、JavaScript 渲染、Core Web Vitals 指标都不分语言。差异在于具体爬虫名单——中文场景额外要关注百度蜘蛛(Baiduspider)/ 神马蜘蛛(YisouSpider)/ 字节蜘蛛(Bytespider)。中文互联网篇会单独讲中文搜索引擎的技术细节,但本课的 SSR / CWV / robots.txt 等核心规则中文站完全适用。