第 4 周 · 技术 SEO

本课适用范围说明

如果你有独立网站：本课的所有内容都适用，robots.txt、Sitemap、Search Console 都可以直接操作。

如果你用第三方平台（小红书、知乎、公众号等）：移动端适配由平台负责，robots.txt 等你无法控制。但你依然需要读这课——原因有两个：第一，了解可爬取性帮你理解为什么某些内容被收录而另一些没有；第二，你将来很可能会建独立站，现在打好基础。本课会在关键操作处注明"平台用户参考"。

移动端优先——不是建议，是事实

从 2023 年起，Google 100% 使用移动端版本来索引和排名网页。

这叫"移动端优先索引"（Mobile-First Indexing）——即使用户在桌面电脑上搜索，Google 看到的也是你网站的手机版。

含义：如果你的网站在手机上体验差，排名就差。就算桌面版体验完美也没用。

百度的移动端情况

百度早在 2019 年就开始推进移动适配，目前在排名中给予移动端友好的网站明显加分。百度站长平台（ziyuan.baidu.com）提供"移动适配检测"工具，专门针对中文网站。

另外，百度搜索的流量超过 70% 来自手机端。中文独立站如果移动端体验差，直接影响搜索流量。

移动端优化检查清单

基本要求：
[ ] 网站是响应式设计（一套代码适配所有屏幕）
[ ] 文字不需要放大就能阅读（字号 ≥ 16px）
[ ] 按钮/链接之间有足够间距（≥ 48px），手指能准确点击
[ ] 不需要横向滚动
[ ] 不使用 Flash 或其他移动端不支持的技术

内容一致性：
[ ] 移动端和桌面端显示的内容完全一致
[ ] 不要在移动端隐藏内容（"点击展开"可以，但内容要在 HTML 中）
[ ] 图片在移动端也能正常加载

速度：
[ ] 移动端 LCP < 2.5 秒（移动网络通常比宽带慢）
[ ] 移动端 PageSpeed Insights 评分 ≥ 80

测试工具

Google 的移动设备易用性测试：

具体操作：

打开 search.google.com/search-console，登录 Google 账号
左侧菜单选"体验" → “移动设备易用性”
报告会列出所有有移动端问题的页面，以及具体错误类型（如"文本太小无法阅读"）
点击某条错误，会看到受影响的 URL 列表

Chrome DevTools 手机模拟：

打开 Chrome，进入你的网站
按 F12（Mac 用 Command + Option + I）打开开发者工具
点击左上角的设备图标（一个手机+平板的小图标）
顶部下拉菜单选择手机型号（如"iPhone 12"或"Samsung Galaxy S21"）
网页会切换为手机视图，你可以模拟手机浏览体验

最简单的方法：拿出你自己的手机，打开你的网站看看。用不同网络（4G、Wi-Fi）都测一下。

百度移动适配检测（中文站必做）：

访问 ziyuan.baidu.com，登录后进入你的站点
左侧选"移动专区" → “移动适配”
输入网址，百度会检测是否符合移动适配标准并给出建议

可爬取性——让搜索引擎进得来

你的网站内容再好，如果搜索引擎的爬虫进不来或找不到，一切白费。

爬虫（Spider/Bot）是搜索引擎派出的自动程序，它们每天不停地访问互联网上的网页、读取内容、然后把信息带回去建立索引。你可以把爬虫想象成图书馆管理员，它每隔一段时间来你的书架（网站）看看有没有新书（新内容），把书目信息带回图书馆（搜索引擎数据库）。

robots.txt

是什么：一个放在网站根目录的文本文件，告诉爬虫"哪些页面可以访问，哪些不行"。相当于给爬虫的"入场规则"。

位置：yoursite.com/robots.txt（把 yoursite.com 换成你的域名，在浏览器直接访问这个地址就能看到）

基本格式：

# 允许所有爬虫访问所有内容（对大多数网站来说，这是正确的默认配置）
User-agent: *
Allow: /

# 不让爬虫访问后台管理页面
User-agent: *
Disallow: /admin/
Disallow: /login/

# Sitemap 位置（下面会讲 Sitemap）
Sitemap: https://yoursite.com/sitemap.xml

User-agent 是爬虫的"名字"，* 表示"所有爬虫"。Allow 允许访问，Disallow 禁止访问。

2026 年的关键更新——AI 爬虫配置：

传统 SEO 只需要关心 Googlebot 和百度蜘蛛。现在你还需要决定是否允许 AI 爬虫：

# 允许所有主要 AI 爬虫（推荐做法）
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

为什么要允许 AI 爬虫？

如果你屏蔽了 GPTBot，你的内容不会被 ChatGPT Search 引用
如果你屏蔽了 PerplexityBot，Perplexity 找不到你的内容
允许 AI 爬虫 = 打开 GEO 的大门
目前很多网站在建站初期没有配置 AI 爬虫规则，白白错失了 GEO 机会

什么时候可能要屏蔽？

你的内容有版权保护需求，不希望被 AI 训练使用
注意：有些 AI 爬虫区分了"训练"和"搜索"用途（如 Google-Extended 只影响 Gemini 训练，不影响 Google 搜索排名）

怎么操作：

如果你用 WordPress：在文件管理器中找到网站根目录，打开或创建 robots.txt 文件，用文本编辑器修改
如果你用 GitHub Pages/Hugo/Hexo：在项目的 static/ 或 public/ 目录下创建 robots.txt 文件
改完后，在浏览器输入 yoursite.com/robots.txt 验证内容是否正确

平台用户参考：第三方平台的 robots.txt 你无法修改。小红书和知乎的 robots.txt 默认允许大多数搜索引擎爬虫访问其内容，但具体的爬取范围由平台决定。你能做的是：发布高质量内容，让平台愿意将你的内容推给搜索引擎。

常见的 robots.txt 错误

❌ 不小心屏蔽了整个网站：
   User-agent: *
   Disallow: /
   （这会让所有爬虫都不访问你的网站！你的整个网站会从搜索结果消失）

❌ 屏蔽了 CSS/JS 文件：
   Disallow: /css/
   Disallow: /js/
   （Googlebot 需要读 CSS 和 JS 来理解页面渲染效果——屏蔽后 Google 
    无法正确渲染你的网页，会影响排名）

❌ 忘记了 robots.txt 的存在，不知道它在屏蔽什么
   （定期检查！特别是用 CMS 或建站工具的用户——有些插件会自动修改 robots.txt）

❌ robots.txt 里有拼写错误
   （"Disallow" 拼成 "Disalow"——错误的规则不生效，爬虫会忽略）

XML Sitemap

是什么：一个 XML 格式的文件，列出你网站所有需要被索引的页面。相当于给爬虫一份"导航地图"——告诉它你的网站有哪些页面，不用爬虫自己一个一个去找。

XML 是什么：可扩展标记语言（Extensible Markup Language），一种结构化的文本格式，类似 HTML 但更侧重数据。你不需要手写，CMS 会自动生成。

位置：通常在 yoursite.com/sitemap.xml

格式示例：

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://yoursite.com/headphones/buying-guide</loc>
    <lastmod>2026-04-01</lastmod>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>https://yoursite.com/headphones/sony-xm6-review</loc>
    <lastmod>2026-03-15</lastmod>
    <priority>0.6</priority>
  </url>
</urlset>

关键点：

只放你希望被索引的页面（不放 404 页面、重复页面、后台页面）
lastmod 要反映真实的最后修改时间（别造假——Google 会检查，造假会降低对整个 Sitemap 的信任度）
priority 范围 0.1 到 1.0，表示这个页面的重要程度（相对站内其他页面）
大多数 CMS 会自动生成 sitemap

各平台的 Sitemap 生成方式：

WordPress：安装 Yoast SEO 或 Rank Math 后自动生成，地址通常是 yoursite.com/sitemap_index.xml
Hugo：默认自动生成，地址是 yoursite.com/sitemap.xml
Hexo：安装 hexo-generator-sitemap 插件后自动生成
GitHub Pages（纯 HTML）：需要手动创建或用工具生成

提交 Sitemap 到 Google：

确认 Sitemap 已生成：在浏览器访问 yoursite.com/sitemap.xml，能看到 XML 内容即可
在 robots.txt 中声明位置：在文件末尾加一行 Sitemap: https://yoursite.com/sitemap.xml
登录 Google Search Console，左侧选"索引" → “站点地图”
在"添加新的站点地图"输入框中填入 sitemap.xml（不用填完整 URL，只填文件名）
点"提交"，状态变为"成功"即完成

提交 Sitemap 到百度：

登录百度搜索资源平台（ziyuan.baidu.com）
左侧选"数据引导" → “链接提交”
选择"自动提交" → “Sitemap”
填入完整的 Sitemap 地址，如 https://yoursite.com/sitemap.xml
保存即可，百度会定期抓取更新

canonical 标签

解决什么问题：当同一内容可以通过多个 URL 访问时，告诉 Google “这个是正版”。

canonical 是"规范的、权威的"的意思。canonical 标签就是"正版 URL 声明"。

常见场景：

https://yoursite.com/headphones/guide
https://yoursite.com/headphones/guide?ref=twitter
https://yoursite.com/headphones/guide?page=1
https://www.yoursite.com/headphones/guide

这四个 URL 显示的内容一样，但 Google 可能把它们当四个不同页面——导致"权重分散"：本来集中在一个 URL 上的排名信号，被分散到四个 URL 上，每个都更弱。

解决方法：在页面的 <head> 中加入 canonical 标签：

<link rel="canonical" href="https://yoursite.com/headphones/guide">

这告诉 Google：“不管用户通过什么 URL 访问，这个页面的’正版地址’是这个。”

什么时候需要注意：

你的文章被同步发布到多个平台（如同时发布在自己网站和知乎专栏）——在自己网站的版本上加 canonical 指向自己网站
URL 有追踪参数（如 ?utm_source=wechat）
HTTP 和 HTTPS 版本都能访问（应该设置 canonical 指向 HTTPS 版本）
www 和非 www 版本都能访问（应该选一个作为标准）

Google Search Console——你的必备工具

Google Search Console（简称 GSC，注意不是 Google Analytics）是 Google 免费提供的工具，告诉你 Google 是怎么看你的网站的。

重要区别：

Google Search Console = 搜索引擎视角（你的网站在搜索结果中的表现）
Google Analytics = 用户视角（访客行为、流量来源）
两者互补，都应该配置

怎么设置 Google Search Console

访问 search.google.com/search-console，用 Google 账号登录
点击"添加资源"，选择"网址前缀"（更简单）
输入你的网站完整 URL，如 https://yoursite.com
验证所有权——有多种方式：
- HTML 文件方式：下载 Google 提供的 HTML 文件，上传到你网站的根目录，然后回来点"验证"
- HTML 标签方式：复制一段 <meta> 代码，粘贴到网站首页 <head> 中，然后验证
- DNS 记录方式：在域名管理面板添加 TXT 记录（适合有独立域名的用户）
- 如果你用 Google Analytics：直接用 GA 验证，最简单
验证成功后，等 1-3 天让 Google 收集初始数据

百度搜索资源平台——中文站必须配置

类似于 Google Search Console，百度搜索资源平台（ziyuan.baidu.com）是百度为站长提供的免费工具。

配置步骤：

访问 ziyuan.baidu.com，用百度账号登录（没有就注册一个）
点击"添加网站"，输入你的域名
选择验证方式（文件验证最简单：下载文件，上传到网站根目录）
验证成功后，提交 Sitemap 和主要页面链接

GSC 中和技术 SEO 相关的功能

功能	在哪里	告诉你什么
索引覆盖率	索引 → 网页	哪些页面被索引了、哪些没有、为什么
核心网页指标	体验 → 核心网页指标	整站的 CWV 状况
移动设备易用性	体验 → 移动设备易用性	移动端有什么问题
站点地图	索引 → 站点地图	Sitemap 的提交状态和错误
爬取统计	设置 → 爬取统计信息	Googlebot 多久来一次、爬了多少页面
网址检查	顶部搜索框	某个特定 URL 的索引状态

重点关注：索引覆盖率

这个报告告诉你：

已索引：Google 已收录，可以出现在搜索结果中 ✅
已爬取但未索引：Google 来看了，但决定不收录（通常因为内容质量或重复）
被 robots.txt 屏蔽：爬虫被你的 robots.txt 挡在门外 ❌
重定向/404：页面有错误，用户和爬虫都访问不到

如果你发布了新内容但一直没被索引：

在 GSC 顶部搜索框输入你的 URL
点"请求编入索引"
通常 1-7 天内 Google 会处理
这个操作每天有配额，不要滥用——只对重要的新内容用

常见误区

误区 1：robots.txt 能保护敏感内容不被看到

错！robots.txt 是君子协议——搜索引擎爬虫会遵守，但恶意爬虫不会。如果你有真正需要保密的内容，要用密码保护或登录验证，而不是 robots.txt。

误区 2：提交了 Sitemap 就一定会被索引

Sitemap 只是告诉 Google"这些页面存在"，并不保证它们会被收录。Google 会根据内容质量、是否重复、网站权威性等因素决定是否收录。如果你的内容质量差，提交了 Sitemap 也没用。

误区 3：Sitemap 里放的页面越多越好

不对。Sitemap 只放你希望被索引的页面。把标签页、存档页、搜索结果页、登录页放进去，反而会稀释 Sitemap 的价值，让 Google 觉得你不在乎内容质量。

误区 4：移动端和桌面端内容可以不同

Google 只看移动端内容——如果你在移动端隐藏了某些文字（为了简洁），那些内容对 Google 来说等于不存在。要保持内容一致，或者改用折叠展示（<details> 标签或手风琴组件），让内容在 HTML 里存在但默认收起。

误区 5：只要网站能打开，爬虫就一定能进来

不一定。有些技术问题会让网站对用户可访问、但对爬虫不可访问：比如需要 JavaScript 渲染的页面（爬虫可能读不到内容）、需要登录才能访问的内容、或者服务器响应太慢导致爬虫超时放弃。

本课小结

Google 100% 用移动端版本索引——移动端体验必须优先；百度同样如此，中文站必须配置百度站长平台
robots.txt 控制爬虫的访问权限——2026 年要允许 AI 爬虫（GPTBot、PerplexityBot 等）
XML Sitemap 给爬虫一份导航地图——只放需要索引的页面，提交到 Google Search Console 和百度搜索资源平台
canonical 标签解决重复内容——告诉 Google 哪个是"正版"
Google Search Console 是技术 SEO 的核心工具——重点看索引覆盖率

下一课：结构化数据（Schema Markup）——用代码让搜索引擎和 AI 更精准地理解你的内容。

本课适用范围说明#

移动端优先——不是建议，是事实#

百度的移动端情况#

移动端优化检查清单#

测试工具#

可爬取性——让搜索引擎进得来#

robots.txt#

常见的 robots.txt 错误#

XML Sitemap#

canonical 标签#

Google Search Console——你的必备工具#

怎么设置 Google Search Console#

百度搜索资源平台——中文站必须配置#

GSC 中和技术 SEO 相关的功能#

重点关注：索引覆盖率#

常见误区#

本课小结#