第 1 周 · 搜索的本质——从 Google 到 AI


从一个问题开始

假设你今天想买一副降噪耳机。你会怎么做?

可能你打开百度,输入"降噪耳机推荐 2026"——0.5 秒后,你看到一页结果:广告、文章排名、也许还有一个百度 AI 生成的摘要。

或者你打开 Google,输入"best noise cancelling headphones 2026"——同样 0.5 秒,同样的结构:广告、AI 摘要、自然搜索结果。

但你有没有想过:这些搜索引擎是怎么在 0.5 秒内从几十亿个网页中找出这些结果的?

这就是这节课要搞懂的事。理解这个问题,是理解 SEO 的第一步。


搜索引擎的三步工作流

所有搜索引擎(Google、Bing、百度)都做同样的三件事:爬取 → 索引 → 排名

第一步:爬取(Crawl)

搜索引擎有一群"机器人"(叫做爬虫/spider/bot),它们 24 小时不停地在互联网上访问网页。

爬虫的工作方式很简单

  1. 访问一个网页
  2. 读取页面上的所有内容
  3. 找到页面上的所有链接
  4. 顺着链接去访问下一个网页
  5. 重复

这就像一个永远不累的读者,沿着链接一直读下去。Google 的爬虫叫 Googlebot,每天爬取几十亿个页面。

一个关键概念:如果爬虫找不到你的网页,你就不存在。

爬虫找不到你的常见原因:

  • 没有任何其他网站链接到你(爬虫没有入口)
  • 你的 robots.txt 文件告诉爬虫"不要来"
  • 你的网站速度太慢,爬虫等不及就走了
  • 你的页面全靠 JavaScript 渲染,爬虫读不了内容

实际例子:你今天新建了一个网站,发布了一篇文章。如果没有任何其他网页链接到你——哪怕只是一条社交媒体上的链接——Googlebot 永远不会访问你的网站。这就是为什么"外链"对新站点如此重要。

第二步:索引(Index)

爬虫读完一个网页后,不是直接记住全文,而是把内容"拆解"存入一个巨大的数据库——这个数据库就叫索引(Index)

可以类比图书馆:

  • 爬取 = 图书馆的采购员去各地收书
  • 索引 = 图书管理员给每本书贴标签、分类、编目录

索引会记录什么?

  • 页面的主题是什么(关于降噪耳机?关于耳机维修?)
  • 页面上有哪些关键词,出现在哪些位置(标题里?还是正文里?)
  • 页面的标题、描述、标题层级
  • 页面的语言、发布日期、更新时间
  • 页面的技术信息(速度、移动端适配度等)
  • 有多少其他页面链接到这个页面

不是所有被爬取的页面都会被索引。 如果 Google 认为你的页面质量太低、和其他页面重复、或者内容太少,它可能爬了但不收录。

怎么检查你的页面有没有被索引? 在 Google 搜索框里输入:

site:你的域名.com

比如 site:zhihu.com,你会看到知乎被索引的所有页面数量。如果搜索结果显示"未找到任何文档",说明这个域名还没有被索引。

第三步:排名(Rank)

当你输入一个搜索词,Google 不是去实时搜索整个互联网——它是在自己已经建好的索引里查找。

排名的核心问题是:几百万个相关页面里,哪 10 个应该排在第一页?

Google 用一套复杂的算法来打分,主要考虑这些因素:

因素 说明 重要程度
内容相关性 页面内容和搜索词的匹配程度 核心
内容质量 内容是否深入、原创、有专业性(E-E-A-T) 核心
外链(Backlinks) 有多少其他网站链接到这个页面(相当于"投票")
用户体验 页面速度、移动端适配、不弹垃圾广告 中-高
新鲜度 内容是否及时更新 中(取决于查询类型)

类比:如果索引是图书馆目录,排名就是图书管理员根据你的提问,从几百万本书里挑出 10 本最值得看的,按推荐度排好递给你。


深入:外链为什么这么重要

外链(Backlink)是 SEO 里最容易被初学者低估的因素,也是最难伪造的因素。

Google 的核心逻辑:如果网站 A 链接到了网站 B,就相当于 A 在为 B “投票”——A 认为 B 的这个内容是有价值的,值得推荐给读者。

这套逻辑最早叫 PageRank,是 Google 创始人 Larry Page 1998 年的博士论文核心。二十多年过去了,外链仍然是 Google 排名算法里最重要的信号之一。

但不是所有外链权重都一样

外链类型 权重 例子
权威大站的链接 极高 虎嗅/36氪/BBC 链接到你的文章
相关领域网站的链接 科技媒体链接到你的测评
普通网站的链接 中等 一个小博客提到了你
自己建的网站互链 极低,可能负面 为了 SEO 专门建了 10 个小站互相链接
垃圾网站的链接 负面 赌博、色情等网站链接到你

一条来自虎嗅、人民网或《纽约时报》的链接,价值可能等于 1000 条来自普通博客的链接。这就是为什么"获得权威外链"是 SEO 里最难但最值钱的工作。


一个搜索的完整旅程

你输入 "best noise cancelling headphones 2026"
                    ↓
        Google 在索引中查找匹配页面
                    ↓
        找到 ~2,000,000 个相关页面
                    ↓
        用排名算法对这些页面打分
          (内容相关性 + 质量 + 外链 + 用户体验…)
                    ↓
        选出 Top 10 显示在第一页
                    ↓
        整个过程耗时 < 0.5 秒

注意:这 0.5 秒只是"查询索引"的时间。真正的工作早已在你搜索之前完成——Google 的爬虫可能在几周前就已经读取并索引了这些页面。


传统搜索结果页长什么样

一个典型的 Google 搜索结果页(SERP = Search Engine Results Page)包含:

┌─────────────────────────────────────────┐
│  🔍 搜索框                              │
├─────────────────────────────────────────┤
│  💰 广告(1-4条)                        │
│     标注 "Ad" 或 "Sponsored"             │
├─────────────────────────────────────────┤
│  🤖 AI Overview(如果触发)              │
│     AI 生成的摘要回答(2024年起)         │
├─────────────────────────────────────────┤
│  📋 精选摘要(Featured Snippet)          │
│     从某个页面摘取的直接回答              │
├─────────────────────────────────────────┤
│  🔵 自然搜索结果 #1                      │
│     标题(蓝色链接)                     │
│     URL                                 │
│     描述(Meta Description)             │
│  🔵 自然搜索结果 #2                      │
│     ...                                 │
│  🔵 自然搜索结果 #10                     │
├─────────────────────────────────────────┤
│  💬 论坛标签(Discussions)               │
│     Reddit / Quora 帖子                  │
├─────────────────────────────────────────┤
│  ❓ 相关问题(People Also Ask)           │
└─────────────────────────────────────────┘

SEO 的核心目标:让你的页面出现在"自然搜索结果"区域,越靠前越好。

为什么靠前很重要? 数据说话:

排名位置 平均点击率(CTR,Google 数据)
第 1 名 27.6%
第 2 名 15.8%
第 3 名 11.0%
第 5 名 6.3%
第 10 名 2.4%
第 2 页 < 1%

百度的点击率分布与此类似,但排名第一的优势更极端——百度用户较少翻到第二页。

排名从第 1 跌到第 2,流量就少了近一半。第二页几乎没人看。


三个关键区分:爬取 ≠ 索引 ≠ 排名靠前

很多初学者把这三个概念混淆,导致判断出错。

被爬取(Crawled):Googlebot 访问了你的页面。这是第一步,但只是第一步。爬虫可能每天访问你的网站,但这不代表你的内容质量好。

被索引(Indexed):Google 把你的页面存入了数据库。这意味着 Google 认为你的内容有基本价值,值得保存。但被索引不代表排名靠前——几十亿个页面都被索引了。

排名靠前(Ranked well):在特定搜索词下,你的页面出现在结果前列。这需要内容、外链、技术健康多个维度都做好。

被爬取的页面 > 被索引的页面 >> 排名前 10 的页面
    (数十亿)       (数百亿)        (只有 10 个)

一个实际的例子:你写了一篇"如何选择降噪耳机"的文章,Googlebot 访问了它(被爬取),Google 把它存进数据库(被索引),但因为竞争的文章太多、你的外链太少、内容深度不够,你的页面可能排在第 157 位,没有人能找到它。


Google 如何判断内容质量:E-E-A-T 简介

除了外链,Google 还会评估内容本身的质量,核心框架叫 E-E-A-T:作者有没有亲身经验(Experience)、是不是领域专家(Expertise)、有没有权威性(Authoritativeness)、内容是否可信(Trustworthiness)

这套框架同样适用于 AI 搜索——第 3 课会详细展开 E-E-A-T 的每个维度和具体做法,这里先记住这四个字母就够了。


初学者最常见的 5 个误区

这些误区来自真实的初学者提问,非常值得在开始之前就消除。

误区 1:关键词密度越高越好

很多人认为在页面里多次重复关键词,Google 就会觉得"这个页面很相关"。

事实:现代 Google 能理解语义,不需要关键词堆砌。过度重复关键词反而会被判定为低质量内容(Keyword Stuffing),受到惩罚。自然流畅地写作,在标题和重要位置出现关键词就够了。

误区 2:建一个网站,等一个月就能有排名

SEO 有显著的时间滞后效应。

事实:新网站通常需要 3-6 个月才能开始看到明显的排名。这是因为 Google 需要时间积累对你网站的信任,外链需要时间积累,内容也需要时间被充分索引。“快速 SEO"通常要么是骗局,要么会触发惩罚。

误区 3:只要内容好,就一定能排名靠前

“好内容"是必要条件,但不是充分条件。

事实:一篇质量很高的文章,如果网站没有权威度(外链很少)、技术有问题(加载很慢)、或者目标关键词竞争极强,它可能永远排不上去。SEO 是内容 × 权威 × 技术的乘积,不是单一因素决定的。

误区 4:SEO 是一次性工作,做完就好

事实:SEO 是持续的工作。算法会更新(Google 每年发布几次重大更新),竞争对手会更新他们的内容,搜索意图会随时间变化。一篇两年前排名第一的文章,如果没有更新,很可能会被新内容超越。

误区 5:花钱投 Google 广告会提高自然排名

事实:Google 的广告系统(Google Ads)和自然搜索排名是完全独立的两套系统。花钱投广告对你的自然排名没有任何影响。这是 Google 明确声明过的,违反这个原则会破坏搜索引擎的公信力。


你现在就可以做的三件事

理论够了,来点实际的。学完这节课,你可以马上去验证:

1. 检查一个网站是否被 Google 索引

打开 Google,搜索:site:zhihu.com(或任何你感兴趣的网站)

你会看到该网站被索引的页面数量和示例。

2. 看一下完整的 SERP 结构

用中文搜索一个你感兴趣的话题,比如"降噪耳机推荐 2026”。数一数:

  • 有几条广告?
  • 有没有 AI Overview?
  • 有没有精选摘要?
  • 有没有 People Also Ask(相关问题)?
  • 自然结果里都是什么类型的内容?

3. 看看一个页面的 Meta 信息

在搜索结果里,你看到的标题和描述分别叫 <title>meta description。右键查看任何网页的源代码,搜索 <title><meta name="description",你会看到这些信息是怎么写的。这是你后面第 3 周会深入学习的内容。


关键术语表

术语 英文 含义
爬取 Crawl 搜索引擎机器人访问和读取网页
索引 Index 搜索引擎存储和组织网页信息的数据库
排名 Rank 搜索引擎决定哪些页面排在前面
SERP Search Engine Results Page 搜索结果页面
自然搜索 Organic Search 非付费的搜索结果
爬虫/蜘蛛 Crawler/Spider/Bot 自动访问网页的程序
外链 Backlink 从其他网站指向你的链接
CTR Click-Through Rate 点击率,看到结果后点击的比例
PageRank PageRank Google 基于链接计算网页权威度的算法
E-E-A-T Experience, Expertise, Authoritativeness, Trustworthiness Google 内容质量评估框架(详见第 3 课)

本课小结

  1. 搜索引擎做三件事:爬取 → 索引 → 排名——被爬取 ≠ 被索引 ≠ 排名靠前
  2. 爬虫找不到你 = 你不存在;让爬虫找到你的关键是有入口链接
  3. 外链是"投票"机制——质量比数量重要,权威网站的一条链接可能值普通网站的 1000 条
  4. E-E-A-T 是 Google 衡量内容质量的框架——经验、专业、权威、可信
  5. 排名第 1 获得 27.6% 点击,第 2 只有 15.8%——靠前是一切
  6. 消除 5 个误区:关键词堆砌无效;SEO 需要 3-6 个月;好内容是必要非充分条件;SEO 需要持续维护;投广告不影响自然排名

下一课我们讲:AI 搜索是怎么工作的——它和传统搜索有什么本质区别。