第 1 周 · 搜索的本质——从 Google 到 AI
从一个问题开始
假设你今天想买一副降噪耳机。你会怎么做?
可能你打开百度,输入"降噪耳机推荐 2026"——0.5 秒后,你看到一页结果:广告、文章排名、也许还有一个百度 AI 生成的摘要。
或者你打开 Google,输入"best noise cancelling headphones 2026"——同样 0.5 秒,同样的结构:广告、AI 摘要、自然搜索结果。
但你有没有想过:这些搜索引擎是怎么在 0.5 秒内从几十亿个网页中找出这些结果的?
这就是这节课要搞懂的事。理解这个问题,是理解 SEO 的第一步。
搜索引擎的三步工作流
所有搜索引擎(Google、Bing、百度)都做同样的三件事:爬取 → 索引 → 排名。
第一步:爬取(Crawl)
搜索引擎有一群"机器人"(叫做爬虫/spider/bot),它们 24 小时不停地在互联网上访问网页。
爬虫的工作方式很简单:
- 访问一个网页
- 读取页面上的所有内容
- 找到页面上的所有链接
- 顺着链接去访问下一个网页
- 重复
这就像一个永远不累的读者,沿着链接一直读下去。Google 的爬虫叫 Googlebot,每天爬取几十亿个页面。
一个关键概念:如果爬虫找不到你的网页,你就不存在。
爬虫找不到你的常见原因:
- 没有任何其他网站链接到你(爬虫没有入口)
- 你的
robots.txt文件告诉爬虫"不要来" - 你的网站速度太慢,爬虫等不及就走了
- 你的页面全靠 JavaScript 渲染,爬虫读不了内容
实际例子:你今天新建了一个网站,发布了一篇文章。如果没有任何其他网页链接到你——哪怕只是一条社交媒体上的链接——Googlebot 永远不会访问你的网站。这就是为什么"外链"对新站点如此重要。
第二步:索引(Index)
爬虫读完一个网页后,不是直接记住全文,而是把内容"拆解"存入一个巨大的数据库——这个数据库就叫索引(Index)。
可以类比图书馆:
- 爬取 = 图书馆的采购员去各地收书
- 索引 = 图书管理员给每本书贴标签、分类、编目录
索引会记录什么?
- 页面的主题是什么(关于降噪耳机?关于耳机维修?)
- 页面上有哪些关键词,出现在哪些位置(标题里?还是正文里?)
- 页面的标题、描述、标题层级
- 页面的语言、发布日期、更新时间
- 页面的技术信息(速度、移动端适配度等)
- 有多少其他页面链接到这个页面
不是所有被爬取的页面都会被索引。 如果 Google 认为你的页面质量太低、和其他页面重复、或者内容太少,它可能爬了但不收录。
怎么检查你的页面有没有被索引? 在 Google 搜索框里输入:
site:你的域名.com
比如 site:zhihu.com,你会看到知乎被索引的所有页面数量。如果搜索结果显示"未找到任何文档",说明这个域名还没有被索引。
第三步:排名(Rank)
当你输入一个搜索词,Google 不是去实时搜索整个互联网——它是在自己已经建好的索引里查找。
排名的核心问题是:几百万个相关页面里,哪 10 个应该排在第一页?
Google 用一套复杂的算法来打分,主要考虑这些因素:
| 因素 | 说明 | 重要程度 |
|---|---|---|
| 内容相关性 | 页面内容和搜索词的匹配程度 | 核心 |
| 内容质量 | 内容是否深入、原创、有专业性(E-E-A-T) | 核心 |
| 外链(Backlinks) | 有多少其他网站链接到这个页面(相当于"投票") | 高 |
| 用户体验 | 页面速度、移动端适配、不弹垃圾广告 | 中-高 |
| 新鲜度 | 内容是否及时更新 | 中(取决于查询类型) |
类比:如果索引是图书馆目录,排名就是图书管理员根据你的提问,从几百万本书里挑出 10 本最值得看的,按推荐度排好递给你。
深入:外链为什么这么重要
外链(Backlink)是 SEO 里最容易被初学者低估的因素,也是最难伪造的因素。
Google 的核心逻辑:如果网站 A 链接到了网站 B,就相当于 A 在为 B “投票”——A 认为 B 的这个内容是有价值的,值得推荐给读者。
这套逻辑最早叫 PageRank,是 Google 创始人 Larry Page 1998 年的博士论文核心。二十多年过去了,外链仍然是 Google 排名算法里最重要的信号之一。
但不是所有外链权重都一样:
| 外链类型 | 权重 | 例子 |
|---|---|---|
| 权威大站的链接 | 极高 | 虎嗅/36氪/BBC 链接到你的文章 |
| 相关领域网站的链接 | 高 | 科技媒体链接到你的测评 |
| 普通网站的链接 | 中等 | 一个小博客提到了你 |
| 自己建的网站互链 | 极低,可能负面 | 为了 SEO 专门建了 10 个小站互相链接 |
| 垃圾网站的链接 | 负面 | 赌博、色情等网站链接到你 |
一条来自虎嗅、人民网或《纽约时报》的链接,价值可能等于 1000 条来自普通博客的链接。这就是为什么"获得权威外链"是 SEO 里最难但最值钱的工作。
一个搜索的完整旅程
你输入 "best noise cancelling headphones 2026"
↓
Google 在索引中查找匹配页面
↓
找到 ~2,000,000 个相关页面
↓
用排名算法对这些页面打分
(内容相关性 + 质量 + 外链 + 用户体验…)
↓
选出 Top 10 显示在第一页
↓
整个过程耗时 < 0.5 秒
注意:这 0.5 秒只是"查询索引"的时间。真正的工作早已在你搜索之前完成——Google 的爬虫可能在几周前就已经读取并索引了这些页面。
传统搜索结果页长什么样
一个典型的 Google 搜索结果页(SERP = Search Engine Results Page)包含:
┌─────────────────────────────────────────┐
│ 🔍 搜索框 │
├─────────────────────────────────────────┤
│ 💰 广告(1-4条) │
│ 标注 "Ad" 或 "Sponsored" │
├─────────────────────────────────────────┤
│ 🤖 AI Overview(如果触发) │
│ AI 生成的摘要回答(2024年起) │
├─────────────────────────────────────────┤
│ 📋 精选摘要(Featured Snippet) │
│ 从某个页面摘取的直接回答 │
├─────────────────────────────────────────┤
│ 🔵 自然搜索结果 #1 │
│ 标题(蓝色链接) │
│ URL │
│ 描述(Meta Description) │
│ 🔵 自然搜索结果 #2 │
│ ... │
│ 🔵 自然搜索结果 #10 │
├─────────────────────────────────────────┤
│ 💬 论坛标签(Discussions) │
│ Reddit / Quora 帖子 │
├─────────────────────────────────────────┤
│ ❓ 相关问题(People Also Ask) │
└─────────────────────────────────────────┘
SEO 的核心目标:让你的页面出现在"自然搜索结果"区域,越靠前越好。
为什么靠前很重要? 数据说话:
| 排名位置 | 平均点击率(CTR,Google 数据) |
|---|---|
| 第 1 名 | 27.6% |
| 第 2 名 | 15.8% |
| 第 3 名 | 11.0% |
| 第 5 名 | 6.3% |
| 第 10 名 | 2.4% |
| 第 2 页 | < 1% |
百度的点击率分布与此类似,但排名第一的优势更极端——百度用户较少翻到第二页。
排名从第 1 跌到第 2,流量就少了近一半。第二页几乎没人看。
三个关键区分:爬取 ≠ 索引 ≠ 排名靠前
很多初学者把这三个概念混淆,导致判断出错。
被爬取(Crawled):Googlebot 访问了你的页面。这是第一步,但只是第一步。爬虫可能每天访问你的网站,但这不代表你的内容质量好。
被索引(Indexed):Google 把你的页面存入了数据库。这意味着 Google 认为你的内容有基本价值,值得保存。但被索引不代表排名靠前——几十亿个页面都被索引了。
排名靠前(Ranked well):在特定搜索词下,你的页面出现在结果前列。这需要内容、外链、技术健康多个维度都做好。
被爬取的页面 > 被索引的页面 >> 排名前 10 的页面
(数十亿) (数百亿) (只有 10 个)
一个实际的例子:你写了一篇"如何选择降噪耳机"的文章,Googlebot 访问了它(被爬取),Google 把它存进数据库(被索引),但因为竞争的文章太多、你的外链太少、内容深度不够,你的页面可能排在第 157 位,没有人能找到它。
Google 如何判断内容质量:E-E-A-T 简介
除了外链,Google 还会评估内容本身的质量,核心框架叫 E-E-A-T:作者有没有亲身经验(Experience)、是不是领域专家(Expertise)、有没有权威性(Authoritativeness)、内容是否可信(Trustworthiness)。
这套框架同样适用于 AI 搜索——第 3 课会详细展开 E-E-A-T 的每个维度和具体做法,这里先记住这四个字母就够了。
初学者最常见的 5 个误区
这些误区来自真实的初学者提问,非常值得在开始之前就消除。
误区 1:关键词密度越高越好
很多人认为在页面里多次重复关键词,Google 就会觉得"这个页面很相关"。
事实:现代 Google 能理解语义,不需要关键词堆砌。过度重复关键词反而会被判定为低质量内容(Keyword Stuffing),受到惩罚。自然流畅地写作,在标题和重要位置出现关键词就够了。
误区 2:建一个网站,等一个月就能有排名
SEO 有显著的时间滞后效应。
事实:新网站通常需要 3-6 个月才能开始看到明显的排名。这是因为 Google 需要时间积累对你网站的信任,外链需要时间积累,内容也需要时间被充分索引。“快速 SEO"通常要么是骗局,要么会触发惩罚。
误区 3:只要内容好,就一定能排名靠前
“好内容"是必要条件,但不是充分条件。
事实:一篇质量很高的文章,如果网站没有权威度(外链很少)、技术有问题(加载很慢)、或者目标关键词竞争极强,它可能永远排不上去。SEO 是内容 × 权威 × 技术的乘积,不是单一因素决定的。
误区 4:SEO 是一次性工作,做完就好
事实:SEO 是持续的工作。算法会更新(Google 每年发布几次重大更新),竞争对手会更新他们的内容,搜索意图会随时间变化。一篇两年前排名第一的文章,如果没有更新,很可能会被新内容超越。
误区 5:花钱投 Google 广告会提高自然排名
事实:Google 的广告系统(Google Ads)和自然搜索排名是完全独立的两套系统。花钱投广告对你的自然排名没有任何影响。这是 Google 明确声明过的,违反这个原则会破坏搜索引擎的公信力。
你现在就可以做的三件事
理论够了,来点实际的。学完这节课,你可以马上去验证:
1. 检查一个网站是否被 Google 索引
打开 Google,搜索:site:zhihu.com(或任何你感兴趣的网站)
你会看到该网站被索引的页面数量和示例。
2. 看一下完整的 SERP 结构
用中文搜索一个你感兴趣的话题,比如"降噪耳机推荐 2026”。数一数:
- 有几条广告?
- 有没有 AI Overview?
- 有没有精选摘要?
- 有没有 People Also Ask(相关问题)?
- 自然结果里都是什么类型的内容?
3. 看看一个页面的 Meta 信息
在搜索结果里,你看到的标题和描述分别叫 <title> 和 meta description。右键查看任何网页的源代码,搜索 <title> 和 <meta name="description",你会看到这些信息是怎么写的。这是你后面第 3 周会深入学习的内容。
关键术语表
| 术语 | 英文 | 含义 |
|---|---|---|
| 爬取 | Crawl | 搜索引擎机器人访问和读取网页 |
| 索引 | Index | 搜索引擎存储和组织网页信息的数据库 |
| 排名 | Rank | 搜索引擎决定哪些页面排在前面 |
| SERP | Search Engine Results Page | 搜索结果页面 |
| 自然搜索 | Organic Search | 非付费的搜索结果 |
| 爬虫/蜘蛛 | Crawler/Spider/Bot | 自动访问网页的程序 |
| 外链 | Backlink | 从其他网站指向你的链接 |
| CTR | Click-Through Rate | 点击率,看到结果后点击的比例 |
| PageRank | PageRank | Google 基于链接计算网页权威度的算法 |
| E-E-A-T | Experience, Expertise, Authoritativeness, Trustworthiness | Google 内容质量评估框架(详见第 3 课) |
本课小结
- 搜索引擎做三件事:爬取 → 索引 → 排名——被爬取 ≠ 被索引 ≠ 排名靠前
- 爬虫找不到你 = 你不存在;让爬虫找到你的关键是有入口链接
- 外链是"投票"机制——质量比数量重要,权威网站的一条链接可能值普通网站的 1000 条
- E-E-A-T 是 Google 衡量内容质量的框架——经验、专业、权威、可信
- 排名第 1 获得 27.6% 点击,第 2 只有 15.8%——靠前是一切
- 消除 5 个误区:关键词堆砌无效;SEO 需要 3-6 个月;好内容是必要非充分条件;SEO 需要持续维护;投广告不影响自然排名
下一课我们讲:AI 搜索是怎么工作的——它和传统搜索有什么本质区别。