搜索的工作原理

搜索引擎是做什么的?

搜索引擎是数字版的图书管理员。它们使用全面的索引来帮助查找查询的正确信息。了解搜索的基础知识使你能够让你的内容对用户具有可发现性

爬虫如何浏览网络

抓取就像浏览图书馆中的所有书籍。在搜索引擎可以提供任何搜索结果之前,它们需要拥有尽可能多的来自网络的信息。为此,搜索引擎使用爬虫——一种从一个站点到另一个站点旅行并像浏览器一样工作的程序。

如果书籍或文档丢失或损坏,爬虫将无法读取它。爬虫尝试获取每个 URL 以确定文档的状态。如果文档返回错误状态代码,爬虫将无法使用其任何内容,并可能稍后重试该 URL。这确保只有公开访问的文档进入索引。

如果爬虫发现重定向状态代码(如 301 或 302),它们会跟随重定向到新的 URL 并在那里继续。一旦它们获得成功的响应,意味着它们找到了用户可以访问的文档,它们会检查是否允许抓取,然后下载内容。

此检查包括 HTML 以及 HTML 中提到的所有内容,例如图像、视频或 JavaScript。爬虫还会从 HTML 文档中提取链接,以便爬虫也可以访问链接的 URL。跟踪链接是爬虫在网络上查找新页面的方式。

爬虫不会主动点击链接或按钮,而是将 URL 发送到队列以供稍后抓取。访问新的 URL 时,没有 cookies、service workers 或本地存储(如 IndexedDB)可用。

构建索引

检索文档后,爬虫将内容交给搜索引擎以将其添加到索引中。搜索引擎现在渲染和分析内容以理解它。渲染意味着像浏览器一样显示页面(有一些限制)。

搜索引擎会查看关键字、标题、链接、标题、文本和许多其他内容。这些被称为信号,它们描述页面的内容和上下文。信号使搜索引擎能够用最佳页面回答任何给定的查询。

搜索引擎可能会在不同的 URL 找到相同的内容。例如,“苹果派”的食谱可能位于 /recipes/apple-pie/recipes/1234 下。为了避免索引和两次显示食谱,搜索引擎会确定主要 URL 应该是什么,并丢弃显示相同内容的备用 URL。

提供最有用的结果

搜索引擎做的工作不仅仅是将查询与索引中的关键字匹配。为了给出有用的结果,它们可能会考虑上下文、替代措辞、用户的位置等等。例如,“硅谷”可能指的是地理区域或电视节目。但如果查询是“硅谷演员”,那么关于该区域的结果就不是很有帮助。

有些查询可能是间接的,例如“低俗小说中的歌曲”,搜索引擎需要解释这一点并显示电影中音乐的结果。当用户搜索某内容时,搜索引擎会确定最有用的结果,然后将其显示给用户。页面的排名或排序是基于查询进行的。如果更好的信息可用,顺序通常会随时间变化。

下一步:如何针对搜索引擎进行优化

既然你已经了解了搜索引擎工作原理的基础知识,你可能会看到针对搜索引擎进行优化的价值。这称为 SEO,或“搜索引擎优化”。通过确保搜索引擎可以找到并自动理解你的内容,你正在提高你的站点在相关搜索中的可见性。这可能会导致更多感兴趣的用户访问你的站点。使用 Lighthouse 审核你的站点并检查 SEO 结果,以了解搜索引擎可以让用户多么容易地了解你的内容。