搜索的工作原理
使用集合保持井井有条根据你的偏好保存内容并进行分类。

Lizzi Harvey

搜索引擎是做什么的？

搜索引擎是数字版的图书管理员。它们使用全面的索引来帮助查找查询的正确信息。了解搜索的基础知识使你能够让你的内容对用户具有可发现性。

爬虫如何浏览网络

抓取就像浏览图书馆中的所有书籍。在搜索引擎可以提供任何搜索结果之前，它们需要拥有尽可能多的来自网络的信息。为此，搜索引擎使用爬虫——一种从一个站点到另一个站点旅行并像浏览器一样工作的程序。

如果书籍或文档丢失或损坏，爬虫将无法读取它。爬虫尝试获取每个 URL 以确定文档的状态。如果文档返回错误状态代码，爬虫将无法使用其任何内容，并可能稍后重试该 URL。这确保只有公开访问的文档进入索引。

如果爬虫发现重定向状态代码（如 301 或 302），它们会跟随重定向到新的 URL 并在那里继续。一旦它们获得成功的响应，意味着它们找到了用户可以访问的文档，它们会检查是否允许抓取，然后下载内容。

此检查包括 HTML 以及 HTML 中提到的所有内容，例如图像、视频或 JavaScript。爬虫还会从 HTML 文档中提取链接，以便爬虫也可以访问链接的 URL。跟踪链接是爬虫在网络上查找新页面的方式。

爬虫不会主动点击链接或按钮，而是将 URL 发送到队列以供稍后抓取。访问新的 URL 时，没有 cookies、service workers 或本地存储（如 IndexedDB）可用。

构建索引

检索文档后，爬虫将内容交给搜索引擎以将其添加到索引中。搜索引擎现在渲染和分析内容以理解它。渲染意味着像浏览器一样显示页面（有一些限制）。

搜索引擎会查看关键字、标题、链接、标题、文本和许多其他内容。这些被称为信号，它们描述页面的内容和上下文。信号使搜索引擎能够用最佳页面回答任何给定的查询。

搜索引擎可能会在不同的 URL 找到相同的内容。例如，“苹果派”的食谱可能位于 /recipes/apple-pie 和 /recipes/1234 下。为了避免索引和两次显示食谱，搜索引擎会确定主要 URL 应该是什么，并丢弃显示相同内容的备用 URL。

提供最有用的结果

搜索引擎做的工作不仅仅是将查询与索引中的关键字匹配。为了给出有用的结果，它们可能会考虑上下文、替代措辞、用户的位置等等。例如，“硅谷”可能指的是地理区域或电视节目。但如果查询是“硅谷演员”，那么关于该区域的结果就不是很有帮助。

有些查询可能是间接的，例如“低俗小说中的歌曲”，搜索引擎需要解释这一点并显示电影中音乐的结果。当用户搜索某内容时，搜索引擎会确定最有用的结果，然后将其显示给用户。页面的排名或排序是基于查询进行的。如果更好的信息可用，顺序通常会随时间变化。

下一步：如何针对搜索引擎进行优化

既然你已经了解了搜索引擎工作原理的基础知识，你可能会看到针对搜索引擎进行优化的价值。这称为 SEO，或“搜索引擎优化”。通过确保搜索引擎可以找到并自动理解你的内容，你正在提高你的站点在相关搜索中的可见性。这可能会导致更多感兴趣的用户访问你的站点。使用 Lighthouse 审核你的站点并检查 SEO 结果，以了解搜索引擎可以让用户多么容易地了解你的内容。

搜索的工作原理 使用集合保持井井有条 根据你的偏好保存内容并进行分类。