第 1 周 · 搜索的本质——从 Google 到 AI

从一个问题开始

假设你今天想买一副降噪耳机。你会怎么做？

可能你打开百度，输入"降噪耳机推荐 2026"——0.5 秒后，你看到一页结果：广告、文章排名、也许还有一个百度 AI 生成的摘要。

或者你打开 Google，输入"best noise cancelling headphones 2026"——同样 0.5 秒，同样的结构：广告、AI 摘要、自然搜索结果。

但你有没有想过：这些搜索引擎是怎么在 0.5 秒内从几十亿个网页中找出这些结果的？

这就是这节课要搞懂的事。理解这个问题，是理解 SEO 的第一步。

搜索引擎的三步工作流

所有搜索引擎（Google、Bing、百度）都做同样的三件事：爬取 → 索引 → 排名。

第一步：爬取（Crawl）

搜索引擎有一群"机器人"（叫做爬虫/spider/bot），它们 24 小时不停地在互联网上访问网页。

爬虫的工作方式很简单：

访问一个网页
读取页面上的所有内容
找到页面上的所有链接
顺着链接去访问下一个网页
重复

这就像一个永远不累的读者，沿着链接一直读下去。Google 的爬虫叫 Googlebot，每天爬取几十亿个页面。

一个关键概念：如果爬虫找不到你的网页，你就不存在。

爬虫找不到你的常见原因：

没有任何其他网站链接到你（爬虫没有入口）
你的 robots.txt 文件告诉爬虫"不要来"
你的网站速度太慢，爬虫等不及就走了
你的页面全靠 JavaScript 渲染，爬虫读不了内容

实际例子：你今天新建了一个网站，发布了一篇文章。如果没有任何其他网页链接到你——哪怕只是一条社交媒体上的链接——Googlebot 永远不会访问你的网站。这就是为什么"外链"对新站点如此重要。

第二步：索引（Index）

爬虫读完一个网页后，不是直接记住全文，而是把内容"拆解"存入一个巨大的数据库——这个数据库就叫索引（Index）。

可以类比图书馆：

爬取 = 图书馆的采购员去各地收书
索引 = 图书管理员给每本书贴标签、分类、编目录

索引会记录什么？

页面的主题是什么（关于降噪耳机？关于耳机维修？）
页面上有哪些关键词，出现在哪些位置（标题里？还是正文里？）
页面的标题、描述、标题层级
页面的语言、发布日期、更新时间
页面的技术信息（速度、移动端适配度等）
有多少其他页面链接到这个页面

不是所有被爬取的页面都会被索引。 如果 Google 认为你的页面质量太低、和其他页面重复、或者内容太少，它可能爬了但不收录。

怎么检查你的页面有没有被索引？ 在 Google 搜索框里输入：

site:你的域名.com

比如 site:zhihu.com，你会看到知乎被索引的所有页面数量。如果搜索结果显示"未找到任何文档"，说明这个域名还没有被索引。

第三步：排名（Rank）

当你输入一个搜索词，Google 不是去实时搜索整个互联网——它是在自己已经建好的索引里查找。

排名的核心问题是：几百万个相关页面里，哪 10 个应该排在第一页？

Google 用一套复杂的算法来打分，主要考虑这些因素：

因素	说明	重要程度
内容相关性	页面内容和搜索词的匹配程度	核心
内容质量	内容是否深入、原创、有专业性（E-E-A-T）	核心
外链（Backlinks）	有多少其他网站链接到这个页面（相当于"投票"）	高
用户体验	页面速度、移动端适配、不弹垃圾广告	中-高
新鲜度	内容是否及时更新	中（取决于查询类型）

类比：如果索引是图书馆目录，排名就是图书管理员根据你的提问，从几百万本书里挑出 10 本最值得看的，按推荐度排好递给你。

深入：外链为什么这么重要

外链（Backlink）是 SEO 里最容易被初学者低估的因素，也是最难伪造的因素。

Google 的核心逻辑：如果网站 A 链接到了网站 B，就相当于 A 在为 B “投票”——A 认为 B 的这个内容是有价值的，值得推荐给读者。

这套逻辑最早叫 PageRank，是 Google 创始人 Larry Page 1998 年的博士论文核心。二十多年过去了，外链仍然是 Google 排名算法里最重要的信号之一。

但不是所有外链权重都一样：

外链类型	权重	例子
权威大站的链接	极高	虎嗅/36氪/BBC 链接到你的文章
相关领域网站的链接	高	科技媒体链接到你的测评
普通网站的链接	中等	一个小博客提到了你
自己建的网站互链	极低，可能负面	为了 SEO 专门建了 10 个小站互相链接
垃圾网站的链接	负面	赌博、色情等网站链接到你

一条来自虎嗅、人民网或《纽约时报》的链接，价值可能等于 1000 条来自普通博客的链接。这就是为什么"获得权威外链"是 SEO 里最难但最值钱的工作。

一个搜索的完整旅程

你输入 "best noise cancelling headphones 2026"
                    ↓
        Google 在索引中查找匹配页面
                    ↓
        找到 ~2,000,000 个相关页面
                    ↓
        用排名算法对这些页面打分
          （内容相关性 + 质量 + 外链 + 用户体验…）
                    ↓
        选出 Top 10 显示在第一页
                    ↓
        整个过程耗时 < 0.5 秒

注意：这 0.5 秒只是"查询索引"的时间。真正的工作早已在你搜索之前完成——Google 的爬虫可能在几周前就已经读取并索引了这些页面。

传统搜索结果页长什么样

一个典型的 Google 搜索结果页（SERP = Search Engine Results Page）包含：

┌─────────────────────────────────────────┐
│  🔍 搜索框                              │
├─────────────────────────────────────────┤
│  💰 广告（1-4条）                        │
│     标注 "Ad" 或 "Sponsored"             │
├─────────────────────────────────────────┤
│  🤖 AI Overview（如果触发）              │
│     AI 生成的摘要回答（2024年起）         │
├─────────────────────────────────────────┤
│  📋 精选摘要（Featured Snippet）          │
│     从某个页面摘取的直接回答              │
├─────────────────────────────────────────┤
│  🔵 自然搜索结果 #1                      │
│     标题（蓝色链接）                     │
│     URL                                 │
│     描述（Meta Description）             │
│  🔵 自然搜索结果 #2                      │
│     ...                                 │
│  🔵 自然搜索结果 #10                     │
├─────────────────────────────────────────┤
│  💬 论坛标签（Discussions）               │
│     Reddit / Quora 帖子                  │
├─────────────────────────────────────────┤
│  ❓ 相关问题（People Also Ask）           │
└─────────────────────────────────────────┘

SEO 的核心目标：让你的页面出现在"自然搜索结果"区域，越靠前越好。

为什么靠前很重要？ 数据说话：

排名位置	平均点击率（CTR，Google 数据）
第 1 名	27.6%
第 2 名	15.8%
第 3 名	11.0%
第 5 名	6.3%
第 10 名	2.4%
第 2 页	< 1%

百度的点击率分布与此类似，但排名第一的优势更极端——百度用户较少翻到第二页。

排名从第 1 跌到第 2，流量就少了近一半。第二页几乎没人看。

三个关键区分：爬取 ≠ 索引 ≠ 排名靠前

很多初学者把这三个概念混淆，导致判断出错。

被爬取（Crawled）：Googlebot 访问了你的页面。这是第一步，但只是第一步。爬虫可能每天访问你的网站，但这不代表你的内容质量好。

被索引（Indexed）：Google 把你的页面存入了数据库。这意味着 Google 认为你的内容有基本价值，值得保存。但被索引不代表排名靠前——几十亿个页面都被索引了。

排名靠前（Ranked well）：在特定搜索词下，你的页面出现在结果前列。这需要内容、外链、技术健康多个维度都做好。

被爬取的页面 > 被索引的页面 >> 排名前 10 的页面
    （数十亿）       （数百亿）        （只有 10 个）

一个实际的例子：你写了一篇"如何选择降噪耳机"的文章，Googlebot 访问了它（被爬取），Google 把它存进数据库（被索引），但因为竞争的文章太多、你的外链太少、内容深度不够，你的页面可能排在第 157 位，没有人能找到它。

Google 如何判断内容质量：E-E-A-T 简介

除了外链，Google 还会评估内容本身的质量，核心框架叫 E-E-A-T：作者有没有亲身经验（Experience）、是不是领域专家（Expertise）、有没有权威性（Authoritativeness）、内容是否可信（Trustworthiness）。

这套框架同样适用于 AI 搜索——第 3 课会详细展开 E-E-A-T 的每个维度和具体做法，这里先记住这四个字母就够了。

初学者最常见的 5 个误区

这些误区来自真实的初学者提问，非常值得在开始之前就消除。

误区 1：关键词密度越高越好

很多人认为在页面里多次重复关键词，Google 就会觉得"这个页面很相关"。

事实：现代 Google 能理解语义，不需要关键词堆砌。过度重复关键词反而会被判定为低质量内容（Keyword Stuffing），受到惩罚。自然流畅地写作，在标题和重要位置出现关键词就够了。

误区 2：建一个网站，等一个月就能有排名

SEO 有显著的时间滞后效应。

事实：新网站通常需要 3-6 个月才能开始看到明显的排名。这是因为 Google 需要时间积累对你网站的信任，外链需要时间积累，内容也需要时间被充分索引。“快速 SEO"通常要么是骗局，要么会触发惩罚。

误区 3：只要内容好，就一定能排名靠前

“好内容"是必要条件，但不是充分条件。

事实：一篇质量很高的文章，如果网站没有权威度（外链很少）、技术有问题（加载很慢）、或者目标关键词竞争极强，它可能永远排不上去。SEO 是内容 × 权威 × 技术的乘积，不是单一因素决定的。

误区 4：SEO 是一次性工作，做完就好

事实：SEO 是持续的工作。算法会更新（Google 每年发布几次重大更新），竞争对手会更新他们的内容，搜索意图会随时间变化。一篇两年前排名第一的文章，如果没有更新，很可能会被新内容超越。

误区 5：花钱投 Google 广告会提高自然排名

事实：Google 的广告系统（Google Ads）和自然搜索排名是完全独立的两套系统。花钱投广告对你的自然排名没有任何影响。这是 Google 明确声明过的，违反这个原则会破坏搜索引擎的公信力。

你现在就可以做的三件事

理论够了，来点实际的。学完这节课，你可以马上去验证：

1. 检查一个网站是否被 Google 索引

打开 Google，搜索：site:zhihu.com（或任何你感兴趣的网站）

你会看到该网站被索引的页面数量和示例。

2. 看一下完整的 SERP 结构

用中文搜索一个你感兴趣的话题，比如"降噪耳机推荐 2026”。数一数：

有几条广告？
有没有 AI Overview？
有没有精选摘要？
有没有 People Also Ask（相关问题）？
自然结果里都是什么类型的内容？

3. 看看一个页面的 Meta 信息

在搜索结果里，你看到的标题和描述分别叫 <title> 和 meta description。右键查看任何网页的源代码，搜索 <title> 和 <meta name="description"，你会看到这些信息是怎么写的。这是你后面第 3 周会深入学习的内容。

关键术语表

术语	英文	含义
爬取	Crawl	搜索引擎机器人访问和读取网页
索引	Index	搜索引擎存储和组织网页信息的数据库
排名	Rank	搜索引擎决定哪些页面排在前面
SERP	Search Engine Results Page	搜索结果页面
自然搜索	Organic Search	非付费的搜索结果
爬虫/蜘蛛	Crawler/Spider/Bot	自动访问网页的程序
外链	Backlink	从其他网站指向你的链接
CTR	Click-Through Rate	点击率，看到结果后点击的比例
PageRank	PageRank	Google 基于链接计算网页权威度的算法
E-E-A-T	Experience, Expertise, Authoritativeness, Trustworthiness	Google 内容质量评估框架（详见第 3 课）

本课小结

搜索引擎做三件事：爬取 → 索引 → 排名——被爬取 ≠ 被索引 ≠ 排名靠前
爬虫找不到你 = 你不存在；让爬虫找到你的关键是有入口链接
外链是"投票"机制——质量比数量重要，权威网站的一条链接可能值普通网站的 1000 条
E-E-A-T 是 Google 衡量内容质量的框架——经验、专业、权威、可信
排名第 1 获得 27.6% 点击，第 2 只有 15.8%——靠前是一切
消除 5 个误区：关键词堆砌无效；SEO 需要 3-6 个月；好内容是必要非充分条件；SEO 需要持续维护；投广告不影响自然排名

下一课我们讲：AI 搜索是怎么工作的——它和传统搜索有什么本质区别。

从一个问题开始#

搜索引擎的三步工作流#

第一步：爬取（Crawl）#

第二步：索引（Index）#

第三步：排名（Rank）#

深入：外链为什么这么重要#

一个搜索的完整旅程#

传统搜索结果页长什么样#

三个关键区分：爬取 ≠ 索引 ≠ 排名靠前#

Google 如何判断内容质量：E-E-A-T 简介#

初学者最常见的 5 个误区#

你现在就可以做的三件事#

关键术语表#

本课小结#