第 5 课：Technical 技术地基——爬虫能不能正确读到你的内容

Q: Technical 只占 6 维体系的 15%——为什么这么强调'它能让前面所有维度归零'？

因为前面 3 维（Citability 25% + Brand Authority 20% + E-E-A-T 内容质量 25%）合计 70%——但这 70% 都建立在'AI 爬虫能读到你的内容'这个前提上。如果 GPTBot 抓你的页面看到空白（典型纯 React 客户端渲染站），你 80 分的内容质量、80 分的段落 Citability、80 分的 Brand Authority 全都拿不到——AI 看不到等于不存在。Technical 不是加分项，是入场券——它从总分上拿不走太多分，但缺一项关键技术细节会让前面所有努力归零。

Q: 我用的是 Vercel + Next.js / Nuxt——SSR 是不是默认就有了？

大部分情况是，但有个细节坑。Next.js 默认 App Router 是 SSR / SSG（好），但如果你用了 `'use client'` 把整页转成客户端渲染，或者用 `dynamic` 关掉 SSR，AI 爬虫看到的就是空白。Nuxt 的 ` ` 包裹的部分也是。判别方法：`curl https://yoursite.com/some-page | grep '你的页面正文一段'`——如果 grep 没命中，就是 CSR 状态。这一课里有具体的 SSR 检测方法。

你的内容质量评分到 80，但 GPTBot 抓到的是空白页——这一课讲 6 维体系第 4 维 Technical 占 15%，但能让前面所有维度归零。SSR 是 GEO 时代的生死线（AI 爬虫不执行 JS）+ 14 个 AI 爬虫 user-agent 完整清单 + Core Web Vitals 三指标 + Mobile-First Crawling。

一个让人无语的发现

你已经做完前 4 课：内容质量 E-E-A-T 80 分、段落 Citability 80 分、Brand Authority 5 大平台都建好。

现在你打开 Perplexity，搜你品牌名 + 你最想被引用的查询，AI 给的答案里仍然没有你。

不是 AI 看到了选择不引用你，是 AI 根本没看到你。

让我们做一次直接的检测。打开终端，跑一行命令：

curl -s "https://yoursite.com/your-best-page" | grep "你这一页里的核心句子"

3 种结果：

grep 命中 → 你的内容在原始 HTML 里，AI 爬虫能读到
grep 没命中、但浏览器能看到内容 → 你的内容是 JS 渲染出来的，AI 爬虫看到空白
整个 curl 没返回 → 你的服务器在屏蔽爬虫 / 网络问题

第 2 种是最常见、也最隐蔽的状态：你的内容在浏览器里看着完美，但 AI 爬虫拿到的是一个空 div。

这就是这一课的核心：Technical 维度只占 6 维体系的 15%，但它能让前面 70% 的努力归零。

这一课讲清楚 4 件事：

SSR（服务端渲染）是 GEO 时代的生死线：AI 爬虫不执行 JavaScript
14 个 AI 爬虫 user-agent 完整清单 + robots.txt 配置
Core Web Vitals 三指标（LCP / INP / CLS）的实操阈值和修复
Mobile-First Crawling：Google 2024 年 7 月起完全转移

6 维体系的 8 大类技术权重

Technical 维度的 15 分按 8 大类分配。下面这张图把 8 类权重摆出来，让你看清每类的相对重要性。

Technical 维度 8 大类权重分布

① Crawlability（15）

可爬性：robots.txt 校验 / AI 爬虫访问 / XML Sitemap / 爬取深度 / Noindex 管理。AI 爬虫被封 = 这一项 0 分，全维度归零。

GEO 第一道门

② Server-Side Rendering（15）

GEO 关键：AI 爬虫不执行 JavaScript。React/Vue/Angular 客户端渲染站点对 AI 爬虫看到的是空白页。整页 CSR = 0 分。

不可妥协的生死线

③ Page Speed & Server（15）

TTFB < 800ms / 总页重 < 2MB / 图片优化 / 代码拆分 / 缓存 / CDN。慢站让爬虫超时放弃，且影响用户体验。

性能直接影响爬取频率

④ Core Web Vitals（15）

LCP < 2.5s / INP < 200ms / CLS < 0.1。Google 直接排名信号；INP 已替代 FID（2024-3）。

用真实用户字段数据 75 百分位

⑤ Indexability（12）

Canonical / 重复内容 / 分页 / Hreflang / 索引膨胀。不被索引 = 不被引用。

可爬之后的下一道门

⑥ Security（10）

HTTPS 强制 / 安全头（HSTS / CSP / X-Content-Type-Options 等）。AI 倾向引用安全合格的站。

2026 年是基线，不是加分项

⑦ Mobile Optimization（10）

2024 年 7 月起 Google 完全用 mobile Googlebot 抓所有站。无 desktop 抓取。响应式 / 触控目标 ≥ 48px / 移动内容对等。

不工作 = 对 Google 不工作

⑧ URL Structure（8）

干净 URL / 逻辑层级 / 重定向链 ≤ 1 跳 / 参数处理。爬取效率与索引质量。

低权重但容易踩坑

关键观察：4 个 15 分的"最高权重项"（Crawlability / SSR / Page Speed / Core Web Vitals）任何一项不及格都会拖垮整个 Technical 维度。先把这 4 项做到 80+，再去优化剩下 4 项。

常见问题

Technical 只占 6 维体系的 15%——为什么这么强调"它能让前面所有维度归零"？

因为前面 3 维（Citability 25% + Brand Authority 20% + E-E-A-T 内容质量 25%）合计 70%——但这 70% 都建立在"AI 爬虫能读到你的内容"这个前提上。如果 GPTBot 抓你的页面看到空白（典型纯 React 客户端渲染站），你 80 分的内容质量、80 分的段落 Citability、80 分的 Brand Authority 全都拿不到——AI 看不到等于不存在。Technical 不是加分项，是入场券——它从总分上拿不走太多分，但缺一项关键技术细节会让前面所有努力归零。

我用的是 Vercel + Next.js / Nuxt——SSR 是不是默认就有了？

大部分情况是，但有个细节坑。Next.js 默认 App Router 是 SSR / SSG（好），但如果你用了 `"use client"` 把整页转成客户端渲染，或者用 `dynamic` 关掉 SSR，AI 爬虫看到的就是空白。Nuxt 的 `<ClientOnly>` 包裹的部分也是。判别方法：`curl https://yoursite.com/some-page | grep "你的页面正文一段"`——如果 grep 没命中，就是 CSR 状态。这一课里有具体的 SSR 检测方法。

我封了 GPTBot 是不是就完全屏蔽 ChatGPT 引用了？

不一定，但绝大概率是。GPTBot 是 OpenAI 训练数据爬虫；OpenAI 还有 OAI-SearchBot（搜索专用）和 ChatGPT-User（浏览模式）。三者之中你封了任何一个都会损失对应场景的引用——封 GPTBot 影响训练数据收录、封 OAI-SearchBot 影响 ChatGPT 实时搜索、封 ChatGPT-User 影响用户在 ChatGPT 里点击你网站时的预览。多数情况下三个都该开。如果有版权敏感内容，IETF 草案的 Content-Signal 指令（`ai-train=no, search=yes`）是更细粒度的方案。

我的 Core Web Vitals 一直显示橙色——是不是要全栈重构？

99% 情况不需要。CWV 三项指标（LCP / INP / CLS）大多数性能问题来自 3-5 个具体技术细节：LCP 慢通常是首屏图没 preload + 阻塞渲染 CSS；INP 慢通常是大 JS bundle 没拆 + 第三方脚本同步加载；CLS 高通常是图片没设宽高 + 字体加载导致重排。挨个修这些细节就够了——重构整站很少是必要的。本课"Core Web Vitals 三指标"部分有具体修复优先级。

我做的是中文站，Technical 这套适用吗？还是得看中文版的标准？

Technical 部分中英文几乎完全通用——因为爬虫规则、HTTP 协议、JavaScript 渲染、Core Web Vitals 指标都不分语言。差异在于具体爬虫名单——中文场景额外要关注百度蜘蛛（Baiduspider）/ 神马蜘蛛（YisouSpider）/ 字节蜘蛛（Bytespider）。中文互联网篇会单独讲中文搜索引擎的技术细节，但本课的 SSR / CWV / robots.txt 等核心规则中文站完全适用。