第 4 周 · 技术 SEO
本课适用范围说明
如果你有独立网站:本课的所有内容都适用,robots.txt、Sitemap、Search Console 都可以直接操作。
如果你用第三方平台(小红书、知乎、公众号等):移动端适配由平台负责,robots.txt 等你无法控制。但你依然需要读这课——原因有两个:第一,了解可爬取性帮你理解为什么某些内容被收录而另一些没有;第二,你将来很可能会建独立站,现在打好基础。本课会在关键操作处注明"平台用户参考"。
移动端优先——不是建议,是事实
从 2023 年起,Google 100% 使用移动端版本来索引和排名网页。
这叫"移动端优先索引"(Mobile-First Indexing)——即使用户在桌面电脑上搜索,Google 看到的也是你网站的手机版。
含义:如果你的网站在手机上体验差,排名就差。就算桌面版体验完美也没用。
百度的移动端情况
百度早在 2019 年就开始推进移动适配,目前在排名中给予移动端友好的网站明显加分。百度站长平台(ziyuan.baidu.com)提供"移动适配检测"工具,专门针对中文网站。
另外,百度搜索的流量超过 70% 来自手机端。中文独立站如果移动端体验差,直接影响搜索流量。
移动端优化检查清单
基本要求:
[ ] 网站是响应式设计(一套代码适配所有屏幕)
[ ] 文字不需要放大就能阅读(字号 ≥ 16px)
[ ] 按钮/链接之间有足够间距(≥ 48px),手指能准确点击
[ ] 不需要横向滚动
[ ] 不使用 Flash 或其他移动端不支持的技术
内容一致性:
[ ] 移动端和桌面端显示的内容完全一致
[ ] 不要在移动端隐藏内容("点击展开"可以,但内容要在 HTML 中)
[ ] 图片在移动端也能正常加载
速度:
[ ] 移动端 LCP < 2.5 秒(移动网络通常比宽带慢)
[ ] 移动端 PageSpeed Insights 评分 ≥ 80
测试工具
Google 的移动设备易用性测试:
具体操作:
- 打开
search.google.com/search-console,登录 Google 账号 - 左侧菜单选"体验" → “移动设备易用性”
- 报告会列出所有有移动端问题的页面,以及具体错误类型(如"文本太小无法阅读")
- 点击某条错误,会看到受影响的 URL 列表
Chrome DevTools 手机模拟:
- 打开 Chrome,进入你的网站
- 按 F12(Mac 用 Command + Option + I)打开开发者工具
- 点击左上角的设备图标(一个手机+平板的小图标)
- 顶部下拉菜单选择手机型号(如"iPhone 12"或"Samsung Galaxy S21")
- 网页会切换为手机视图,你可以模拟手机浏览体验
最简单的方法:拿出你自己的手机,打开你的网站看看。用不同网络(4G、Wi-Fi)都测一下。
百度移动适配检测(中文站必做):
- 访问
ziyuan.baidu.com,登录后进入你的站点 - 左侧选"移动专区" → “移动适配”
- 输入网址,百度会检测是否符合移动适配标准并给出建议
可爬取性——让搜索引擎进得来
你的网站内容再好,如果搜索引擎的爬虫进不来或找不到,一切白费。
爬虫(Spider/Bot)是搜索引擎派出的自动程序,它们每天不停地访问互联网上的网页、读取内容、然后把信息带回去建立索引。你可以把爬虫想象成图书馆管理员,它每隔一段时间来你的书架(网站)看看有没有新书(新内容),把书目信息带回图书馆(搜索引擎数据库)。
robots.txt
是什么:一个放在网站根目录的文本文件,告诉爬虫"哪些页面可以访问,哪些不行"。相当于给爬虫的"入场规则"。
位置:yoursite.com/robots.txt(把 yoursite.com 换成你的域名,在浏览器直接访问这个地址就能看到)
基本格式:
# 允许所有爬虫访问所有内容(对大多数网站来说,这是正确的默认配置)
User-agent: *
Allow: /
# 不让爬虫访问后台管理页面
User-agent: *
Disallow: /admin/
Disallow: /login/
# Sitemap 位置(下面会讲 Sitemap)
Sitemap: https://yoursite.com/sitemap.xml
User-agent 是爬虫的"名字",* 表示"所有爬虫"。Allow 允许访问,Disallow 禁止访问。
2026 年的关键更新——AI 爬虫配置:
传统 SEO 只需要关心 Googlebot 和百度蜘蛛。现在你还需要决定是否允许 AI 爬虫:
# 允许所有主要 AI 爬虫(推荐做法)
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
为什么要允许 AI 爬虫?
- 如果你屏蔽了 GPTBot,你的内容不会被 ChatGPT Search 引用
- 如果你屏蔽了 PerplexityBot,Perplexity 找不到你的内容
- 允许 AI 爬虫 = 打开 GEO 的大门
- 目前很多网站在建站初期没有配置 AI 爬虫规则,白白错失了 GEO 机会
什么时候可能要屏蔽?
- 你的内容有版权保护需求,不希望被 AI 训练使用
- 注意:有些 AI 爬虫区分了"训练"和"搜索"用途(如 Google-Extended 只影响 Gemini 训练,不影响 Google 搜索排名)
怎么操作:
- 如果你用 WordPress:在文件管理器中找到网站根目录,打开或创建
robots.txt文件,用文本编辑器修改 - 如果你用 GitHub Pages/Hugo/Hexo:在项目的
static/或public/目录下创建robots.txt文件 - 改完后,在浏览器输入
yoursite.com/robots.txt验证内容是否正确
平台用户参考:第三方平台的 robots.txt 你无法修改。小红书和知乎的 robots.txt 默认允许大多数搜索引擎爬虫访问其内容,但具体的爬取范围由平台决定。你能做的是:发布高质量内容,让平台愿意将你的内容推给搜索引擎。
常见的 robots.txt 错误
❌ 不小心屏蔽了整个网站:
User-agent: *
Disallow: /
(这会让所有爬虫都不访问你的网站!你的整个网站会从搜索结果消失)
❌ 屏蔽了 CSS/JS 文件:
Disallow: /css/
Disallow: /js/
(Googlebot 需要读 CSS 和 JS 来理解页面渲染效果——屏蔽后 Google
无法正确渲染你的网页,会影响排名)
❌ 忘记了 robots.txt 的存在,不知道它在屏蔽什么
(定期检查!特别是用 CMS 或建站工具的用户——有些插件会自动修改 robots.txt)
❌ robots.txt 里有拼写错误
("Disallow" 拼成 "Disalow"——错误的规则不生效,爬虫会忽略)
XML Sitemap
是什么:一个 XML 格式的文件,列出你网站所有需要被索引的页面。相当于给爬虫一份"导航地图"——告诉它你的网站有哪些页面,不用爬虫自己一个一个去找。
XML 是什么:可扩展标记语言(Extensible Markup Language),一种结构化的文本格式,类似 HTML 但更侧重数据。你不需要手写,CMS 会自动生成。
位置:通常在 yoursite.com/sitemap.xml
格式示例:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://yoursite.com/headphones/buying-guide</loc>
<lastmod>2026-04-01</lastmod>
<priority>0.8</priority>
</url>
<url>
<loc>https://yoursite.com/headphones/sony-xm6-review</loc>
<lastmod>2026-03-15</lastmod>
<priority>0.6</priority>
</url>
</urlset>
关键点:
- 只放你希望被索引的页面(不放 404 页面、重复页面、后台页面)
lastmod要反映真实的最后修改时间(别造假——Google 会检查,造假会降低对整个 Sitemap 的信任度)priority范围 0.1 到 1.0,表示这个页面的重要程度(相对站内其他页面)- 大多数 CMS 会自动生成 sitemap
各平台的 Sitemap 生成方式:
- WordPress:安装 Yoast SEO 或 Rank Math 后自动生成,地址通常是
yoursite.com/sitemap_index.xml - Hugo:默认自动生成,地址是
yoursite.com/sitemap.xml - Hexo:安装
hexo-generator-sitemap插件后自动生成 - GitHub Pages(纯 HTML):需要手动创建或用工具生成
提交 Sitemap 到 Google:
- 确认 Sitemap 已生成:在浏览器访问
yoursite.com/sitemap.xml,能看到 XML 内容即可 - 在 robots.txt 中声明位置:在文件末尾加一行
Sitemap: https://yoursite.com/sitemap.xml - 登录 Google Search Console,左侧选"索引" → “站点地图”
- 在"添加新的站点地图"输入框中填入
sitemap.xml(不用填完整 URL,只填文件名) - 点"提交",状态变为"成功"即完成
提交 Sitemap 到百度:
- 登录百度搜索资源平台(
ziyuan.baidu.com) - 左侧选"数据引导" → “链接提交”
- 选择"自动提交" → “Sitemap”
- 填入完整的 Sitemap 地址,如
https://yoursite.com/sitemap.xml - 保存即可,百度会定期抓取更新
canonical 标签
解决什么问题:当同一内容可以通过多个 URL 访问时,告诉 Google “这个是正版”。
canonical 是"规范的、权威的"的意思。canonical 标签就是"正版 URL 声明"。
常见场景:
https://yoursite.com/headphones/guide
https://yoursite.com/headphones/guide?ref=twitter
https://yoursite.com/headphones/guide?page=1
https://www.yoursite.com/headphones/guide
这四个 URL 显示的内容一样,但 Google 可能把它们当四个不同页面——导致"权重分散":本来集中在一个 URL 上的排名信号,被分散到四个 URL 上,每个都更弱。
解决方法:在页面的 <head> 中加入 canonical 标签:
<link rel="canonical" href="https://yoursite.com/headphones/guide">
这告诉 Google:“不管用户通过什么 URL 访问,这个页面的’正版地址’是这个。”
什么时候需要注意:
- 你的文章被同步发布到多个平台(如同时发布在自己网站和知乎专栏)——在自己网站的版本上加 canonical 指向自己网站
- URL 有追踪参数(如
?utm_source=wechat) - HTTP 和 HTTPS 版本都能访问(应该设置 canonical 指向 HTTPS 版本)
www和非www版本都能访问(应该选一个作为标准)
Google Search Console——你的必备工具
Google Search Console(简称 GSC,注意不是 Google Analytics)是 Google 免费提供的工具,告诉你 Google 是怎么看你的网站的。
重要区别:
- Google Search Console = 搜索引擎视角(你的网站在搜索结果中的表现)
- Google Analytics = 用户视角(访客行为、流量来源)
- 两者互补,都应该配置
怎么设置 Google Search Console
- 访问
search.google.com/search-console,用 Google 账号登录 - 点击"添加资源",选择"网址前缀"(更简单)
- 输入你的网站完整 URL,如
https://yoursite.com - 验证所有权——有多种方式:
- HTML 文件方式:下载 Google 提供的 HTML 文件,上传到你网站的根目录,然后回来点"验证"
- HTML 标签方式:复制一段
<meta>代码,粘贴到网站首页<head>中,然后验证 - DNS 记录方式:在域名管理面板添加 TXT 记录(适合有独立域名的用户)
- 如果你用 Google Analytics:直接用 GA 验证,最简单
- 验证成功后,等 1-3 天让 Google 收集初始数据
百度搜索资源平台——中文站必须配置
类似于 Google Search Console,百度搜索资源平台(ziyuan.baidu.com)是百度为站长提供的免费工具。
配置步骤:
- 访问
ziyuan.baidu.com,用百度账号登录(没有就注册一个) - 点击"添加网站",输入你的域名
- 选择验证方式(文件验证最简单:下载文件,上传到网站根目录)
- 验证成功后,提交 Sitemap 和主要页面链接
GSC 中和技术 SEO 相关的功能
| 功能 | 在哪里 | 告诉你什么 |
|---|---|---|
| 索引覆盖率 | 索引 → 网页 | 哪些页面被索引了、哪些没有、为什么 |
| 核心网页指标 | 体验 → 核心网页指标 | 整站的 CWV 状况 |
| 移动设备易用性 | 体验 → 移动设备易用性 | 移动端有什么问题 |
| 站点地图 | 索引 → 站点地图 | Sitemap 的提交状态和错误 |
| 爬取统计 | 设置 → 爬取统计信息 | Googlebot 多久来一次、爬了多少页面 |
| 网址检查 | 顶部搜索框 | 某个特定 URL 的索引状态 |
重点关注:索引覆盖率
这个报告告诉你:
- 已索引:Google 已收录,可以出现在搜索结果中 ✅
- 已爬取但未索引:Google 来看了,但决定不收录(通常因为内容质量或重复)
- 被 robots.txt 屏蔽:爬虫被你的 robots.txt 挡在门外 ❌
- 重定向/404:页面有错误,用户和爬虫都访问不到
如果你发布了新内容但一直没被索引:
- 在 GSC 顶部搜索框输入你的 URL
- 点"请求编入索引"
- 通常 1-7 天内 Google 会处理
- 这个操作每天有配额,不要滥用——只对重要的新内容用
常见误区
误区 1:robots.txt 能保护敏感内容不被看到
错!robots.txt 是君子协议——搜索引擎爬虫会遵守,但恶意爬虫不会。如果你有真正需要保密的内容,要用密码保护或登录验证,而不是 robots.txt。
误区 2:提交了 Sitemap 就一定会被索引
Sitemap 只是告诉 Google"这些页面存在",并不保证它们会被收录。Google 会根据内容质量、是否重复、网站权威性等因素决定是否收录。如果你的内容质量差,提交了 Sitemap 也没用。
误区 3:Sitemap 里放的页面越多越好
不对。Sitemap 只放你希望被索引的页面。把标签页、存档页、搜索结果页、登录页放进去,反而会稀释 Sitemap 的价值,让 Google 觉得你不在乎内容质量。
误区 4:移动端和桌面端内容可以不同
Google 只看移动端内容——如果你在移动端隐藏了某些文字(为了简洁),那些内容对 Google 来说等于不存在。要保持内容一致,或者改用折叠展示(<details> 标签或手风琴组件),让内容在 HTML 里存在但默认收起。
误区 5:只要网站能打开,爬虫就一定能进来
不一定。有些技术问题会让网站对用户可访问、但对爬虫不可访问:比如需要 JavaScript 渲染的页面(爬虫可能读不到内容)、需要登录才能访问的内容、或者服务器响应太慢导致爬虫超时放弃。
本课小结
- Google 100% 用移动端版本索引——移动端体验必须优先;百度同样如此,中文站必须配置百度站长平台
- robots.txt 控制爬虫的访问权限——2026 年要允许 AI 爬虫(GPTBot、PerplexityBot 等)
- XML Sitemap 给爬虫一份导航地图——只放需要索引的页面,提交到 Google Search Console 和百度搜索资源平台
- canonical 标签解决重复内容——告诉 Google 哪个是"正版"
- Google Search Console 是技术 SEO 的核心工具——重点看索引覆盖率
下一课:结构化数据(Schema Markup)——用代码让搜索引擎和 AI 更精准地理解你的内容。