Google搜索排序是如何工作的

Google搜索排序是如何工作的


search

显而易见,Google文档泄露和反垄断听证会的公开文件并未真正揭示排名机制的具体运作方式。

自然的搜索结果的结构现在非常复杂——尤其是由于机器学习的引入——以至于即使是负责排名算法的Google员工也表示,他们已经无法解释为什么某个结果会排在第一或第二位。 我们无法知道众多信号的权重及其精确的相互作用。

尽管如此,熟悉搜索引擎的结构仍然非常重要,这样才能理解为什么经过精心优化的页面没有排名,或者相反,为什么那些看似简短且未经优化的结果有时会出现在排名的顶部。 最重要的一点是,你需要拓宽对真正重要因素的认知。

所有可用的信息都清楚地表明了这一点。任何稍微涉足排名领域的人都应该将这些发现纳入自己的思维中。你将会从完全不同的角度看待自己的网站,并在分析、规划和决策中加入更多的指标。 坦白说,要真正勾勒出这些系统结构的全貌极为困难。网络上的信息在解释上存在较大差异,有时术语不同,尽管意思是一样的。

举个例子:负责构建搜索结果页面(SERP)并优化空间使用的系统被称为Tangram。然而,在某些Google文档中,它也被称为Tetris,可能是对那个著名游戏的引用。 经过数周的细致工作,我多次查看、分析、构建、舍弃并重构了近100份文档。

这篇文章并不打算详尽无遗或严格准确。它代表了我最大的努力(即“尽我所知和所信”),并带有一点侦探Columbo的调查精神。这就是你现在所看到的结果。

google-search

一个等待Googlebot访问的新文档

当你发布一个新网站时,它不会立即被索引。Google首先需要知道这个URL的存在。这通常是通过更新的站点地图或从已知URL放置的链接来实现的。

访问频繁的页面,如主页,自然会更快地将这些链接信息引起Google的注意。

抓取系统会获取新内容,并跟踪何时重新访问URL以检查更新。这由一个名为调度器的组件管理。存储服务器决定是否转发该URL,或者是否将其放入沙盒中。

Google否认存在这个沙盒,但最近的泄露信息表明,疑似垃圾网站和低价值网站可能会被放入其中。需要提到的是,Google显然会转发一些垃圾内容,可能是为了进一步分析以训练其算法。

我们假设的文档通过了这一关卡。文档中的外部链接被提取并根据内部或外部链接进行分类。其他系统主要使用这些信息进行链接分析和PageRank计算。(稍后会详细介绍。)

指向图像的链接被转交给ImageBot,后者有时会在相当长的延迟后调用它们,并将这些图像(与相同或相似的图像一起)放入图像容器中。

抓取系统显然使用其自身的PageRank来调整抓取频率。如果一个网站的流量较高,那么抓取频率就会增加(ClientTrafficFraction)。

亚历山大:伟大的图书馆

Google的索引系统名为亚历山大(Alexandria),它为每一条内容分配一个唯一的DocID。如果内容已经存在,例如在重复的情况下,就不会创建新的ID;相反,URL会链接到现有的DocID。

重要提示:Google区分URL和文档。一个文档可以由多个包含相似内容的URL组成,包括不同语言版本(如果它们被正确标记的话)。来自其他域名的URL也在这里进行排序。所有这些URL的信号都会通过共同的DocID应用。

对于重复内容,Google会选择规范版本(canonical version),这个版本会出现在搜索排名中。这也解释了为什么其他URL有时会排名相似;“原始” (规范) URL的确定可能会随着时间的推移而改变。

google-search

由于我们的文档在网络上只有这一版本,因此它获得了自己独立的DocID。

我们网站的各个部分会被搜索相关的关键词短语,并被推送到搜索索引中。在那里,“命中列表”(页面上所有重要的词)首先被发送到直接索引,直接索引汇总了每个页面上多次出现的关键词。 现在,一个重要的步骤发生了。各个关键词短语被整合到倒排索引(词汇索引)的词汇目录中。词汇“铅笔”以及包含这个词的所有重要文档已经被列在那里了。

简单来说,由于我们的文档中多次显著地包含了“铅笔”这个词,现在它在词汇索引中以“铅笔”为条目,并带有其DocID。 这个DocID被分配了一个算法计算的“信息检索” (IR) 分数,用于将来在“发布列表”中使用。

例如,在我们的文档中,词汇“铅笔”在文本中被加粗显示,并且出现在H1标题中(存储在AvrTermWeight中)。这样的信号和其他信号都会增加IR分数。

Google会将被认为重要的文档移动到所谓的HiveMind,也就是主存储器中。Google使用快速的SSD和传统的HDD(称为TeraGoogle)来长期存储不需要快速访问的信息。文档和信号都被存储在主存储器中。

值得注意的是,专家估计,在最近的AI浪潮之前,全球约一半的网络服务器都由Google托管。一个庞大的互联集群网络使数百万个主存储单元协同工作。一位Google工程师曾在会议上指出,理论上,Google的主存储器可以存储整个互联网。

有趣的是,存储在HiveMind中的链接(包括反向链接)似乎具有显著更高的权重。例如,来自重要文档的链接会被赋予更高的重要性,而来自TeraGoogle(HDD)中的URL的链接可能权重较低,甚至可能完全不被考虑。

  • 提示:请为您的文档提供合理且一致的日期值。BylineDate(源代码中的日期)、syntaticDate(从URL和/或标题中提取的日期)和semanticDate(从可读内容中获取的日期)都在使用之列。
  • 通过更改日期来伪造时效性可能会导致降级(降权)。lastSignificantUpdate属性记录了文档最后一次重大更改的时间。修复小细节或拼写错误不会影响此计数器。

每个DocID的附加信息和信号动态地存储在库中(PerDocData)。许多系统在微调相关性时会访问这些信息。需要知道的是,文档的最后20个版本会存储在这里(通过CrawlerChangerateURLHistory)。

Google有能力评估和判断随时间的变化。如果你想完全改变一个文档的内容或主题,理论上你需要创建20个中间版本以覆盖旧的内容信号。 这就是为什么恢复一个过期域名(一个曾经活跃但后来被放弃或出售的域名,可能是由于破产)不会提供任何排名优势。

如果一个域名的Admin-C(域名的管理员)发生变化,并且其主题内容同时发生变化,系统可以很容易地识别这一点。 此时Google会将所有信号归零,这个看似有价值的旧域名将不再比一个全新注册的域名有任何优势。

google-search

QBST:有人在寻找“铅笔”

当有人在Google中输入“铅笔”作为搜索词时,QBST(Query Based Scoring Technology)就开始工作。搜索词被分析,如果包含多个单词,相关词语会被发送到词汇索引进行检索。 术语加权的过程相当复杂,涉及RankBrain、DeepRank(前身为BERT)和RankEmbeddedBERT等系统。相关词语,如“铅笔”,随后会被传递给Ascorer进行进一步处理。

Ascorer:创建“绿色环”

Ascorer从倒排索引中检索出“铅笔”的前1,000个DocID,并根据IR分数进行排名。根据内部文档,这个列表被称为“绿色环”。在业界,它被称为“发布列表”。

Ascorer是一个名为Mustang的排名系统的一部分,在这里,通过使用SimHash(文档指纹的一种)、段落分析、识别原创和有用内容的系统等方法进行进一步过滤。

目标是将1,000个候选文档精炼到“10个蓝色链接”或“蓝色环”。 我们的关于铅笔的文档在发布列表中,目前排名第132位。如果没有额外的系统干预,这将是它的最终排名位置。

Superroot:将1,000缩减为10!

Superroot系统负责重新排名,精准地将“绿色环”(1,000个DocID)缩减为仅包含10个结果的“蓝色环”。 Twiddlers和NavBoost执行这一任务。可能还有其他系统在这里使用,但由于信息模糊,其确切细节尚不清楚。

google-search

  • GoogleCaffeine不再以这种形式存在了,只有名字保留了下来。
  • 现在,Google使用无数的微服务,这些微服务相互通信并生成文档的属性,这些属性被各种排名和重新排名系统用作信号,同时这些信号也用于训练神经网络,以进行预测。

层层过滤:Twiddler系统

各种文档表明,目前有数百个Twiddler系统在使用。可以将Twiddler视为类似于WordPress中的插件。 每个Twiddler都有其特定的过滤目标。它们之所以这样设计,是因为Twiddler相对容易创建,并且不需要修改Ascorer中复杂的排名算法。 修改这些算法具有挑战性,因为可能会带来广泛的规划和编程工作,导致潜在的副作用。相比之下,Twiddler可以并行或顺序运行,并且彼此之间的活动彼此独立。

Twiddler基本上分为两种类型:

  • PreDoc Twiddler可以处理整个数百个DocID的集合,因为它们几乎不需要额外的信息。
  • 相比之下,“Lazy”类型的Twiddler需要更多的信息,例如来自PerDocData数据库的数据。这相应地需要更长的时间且更复杂。

因此,PreDoc Twiddler首先将发布列表减少到显著更少的条目,然后再开始使用较慢的过滤器。这节省了大量的计算能力和时间。

一些Twiddler会调整IR分数,可能是正向或负向的,而其他Twiddler则直接修改排名位置。由于我们的文档是新加入索引的,设计用来提高新文档排名机会的Twiddler可能会将IR分数乘以1.7的因子。 例如,这一调整可以将我们的文档从132位提升到81位。

另一个Twiddler通过降低内容相似的文档的价值来增强搜索结果页面(SERP)的多样性(strideCategory)。因此,我们前面的几个文档失去了排名,使我们的铅笔文档上升了12位,达到69位。 此外,一个为特定查询将博客页面数量限制为三个的Twiddler将我们的排名提升到61位。

google-search

我们页面的CommercialScore属性得到了一个零分(表示“是”)。Mustang系统在分析过程中识别出了销售意图。Google可能知道,搜索“铅笔”后经常会跟随“购买铅笔”等精确搜索,表明了商业或交易意图。 一个专门处理这种搜索意图的Twiddler会添加相关的结果,并将我们页面的排名提升了20位,使我们上升到第41位。

另一个Twiddler开始发挥作用,它执行一个“第三页惩罚”,将被怀疑为垃圾信息的页面的最高排名限制在第31位(第三页)。 文档的最佳位置由BadURL-demoteindex属性定义,该属性防止排名超过这一阈值。像DemoteForContent、DemoteForForwardlinks和DemoteForBacklinks这样的属性也用于这个目的。 结果是,我们上方的三个文档被降级,使我们的页面上升到第38位。

我们的文档本来可能会被降级,但为了简单起见,我们假设它未受到影响。让我们来看最后一个Twiddler,它根据嵌入(embeddings)评估我们的铅笔页面与我们网站主题的相关性。 由于我们的网站专注于书写工具,这对我们有利,并对另外24个文档产生了负面影响。

例如,设想一个价格比较网站,涵盖了广泛的主题,但其中有一页关于铅笔的“好”页面。由于这个页面的主题与网站的整体重点有很大差异,这个Twiddler会对其进行降级。 像siteFocusScore和siteRadius这样的属性反映了这种主题距离。结果是,我们的IR分数再次提升,而其他结果被降级,使我们上升到第14位。

正如前面提到的,Twiddler有很多用途。开发者可以尝试新的过滤器、乘数或特定的排名限制。甚至可以专门安排一个结果排在另一个结果之前或之后。 Google泄露的一份内部文档警告说,某些Twiddler功能只能由专家使用,并且需要在咨询核心搜索团队后使用。

“如果你认为你理解了它们的工作原理,相信我们:你没有。我们也不确定我们是否理解。” ——泄露的“Twiddler快速入门指南 - Superroot”文档

还有一些Twiddler只创建注释,并在前往SERP的过程中将这些注释添加到DocID中。例如,片段中会显示图像,或者标题和/或描述会在后期动态重写。

如果你在疫情期间感到奇怪,为什么你所在国家的国家卫生部门(例如美国的卫生与公众服务部)在COVID-19搜索中总是排在第一位,那是因为一个Twiddler根据语言和国家使用queriesForWhichOfficial提升了官方资源的排名。

你对Twiddler如何重新排序结果几乎没有控制权,但理解其机制可以帮助你更好地解释排名波动或“无法解释的排名”。定期查看SERP并记录结果类型是很有价值的。

例如,即使使用不同的搜索词,你是否总是只看到一定数量的论坛或博客文章?有多少结果是交易型、信息型或导航型的?同一个域名是否反复出现,还是随着搜索词的微小变化而变化?

如果你注意到结果中只包含少数在线商店,那么尝试用类似的网站来排名可能效果不佳。相反,考虑专注于更信息导向的内容。不过,先不要急于下结论,因为稍后我们还会讨论NavBoost系统。

Google的质量评估员和RankLab

Google在全球有数千名质量评估员,他们负责评估某些搜索结果,并在新的算法和/或过滤器上线前进行测试。

Google解释道:“他们的评分不会直接影响排名。”

这基本上是正确的,但这些评分确实对排名产生了显著的间接影响。

具体是这样运作的:评估员从系统中收到URL或搜索词(搜索结果),并回答预定的问题,通常是在移动设备上进行评估。

例如,他们可能会被问到:“这个内容的作者和发布时间是否清晰?作者是否在该领域具有专业知识?”这些问题的答案会被存储起来,用于训练机器学习算法。这些算法分析好的、可信的页面与不太可靠的页面之间的特征差异。 这种方法意味着,算法通过深度学习,根据人类评估员提供的训练数据来识别模式,而不是依赖Google搜索团队成员来制定排名标准。

让我们通过一个思想实验来说明这一点。假设人们直观地认为,如果一篇内容包含作者照片、全名和LinkedIn简介链接,那么它就值得信赖。而缺少这些特征的页面则被认为不太可信。

如果一个神经网络在训练时将页面的各种特征与这些“是”或“否”的评分结合起来,它会将这一特征识别为一个关键因素。在经过至少30天的几次正面测试后,该网络可能会开始将这一特征作为排名信号使用。 结果是,带有作者照片、全名和LinkedIn链接的页面可能会通过一个Twiddler获得排名提升,而没有这些特征的页面则可能被降级。

Google官方不专注于作者的立场可能与这种情况一致。然而,泄露的信息显示,存在像isAuthor这样的属性和通过AuthorVectors属性进行的“作者指纹识别”概念,这使得作者的个人语言习惯(即用词和表述的个人使用方式)可以区分或识别——再次通过嵌入实现。 评估员的评估结果被汇总为一个“信息满意度”(IS)分数。尽管许多评估员参与其中,但IS分数只适用于一小部分URL。对于其他具有相似模式的页面,这一分数会被推测用于排名目的。

Google指出:“许多文档没有点击,但可能很重要。”当无法进行推测时,系统会自动将文档发送给评估员以生成分数。

“金标准”一词与质量评估员有关,暗示某些文档或文档类型可能有一个金标准。可以推测,符合人类测试者预期的文档可能会达到这个金标准。 此外,可能有一个或多个Twiddler为被视为“金标准”的DocID提供显著提升,甚至将其推向前10名。

质量评估员通常不是Google的全职员工,可能通过外部公司工作。相比之下,Google自己的专家在RankLab工作,他们在那里进行实验,开发新的Twiddler,并评估这些Twiddler或改进后的Twiddler是否能提高结果质量或仅仅是过滤掉垃圾信息。 经过验证且有效的Twiddler会被集成到Mustang系统中,在那里使用复杂、计算密集且相互关联的算法。

但用户想要什么?NavBoost可以解决这个问题!

我们的铅笔文档尚未完全成功。在Superroot系统中,另一个核心系统NavBoost在决定搜索结果的顺序中起着重要作用。NavBoost使用“切片”来管理移动端、桌面端和本地搜索的不同数据集。

尽管Google官方否认使用用户点击数据来决定排名,但FTC的文件显示,一封内部邮件指示必须对点击数据的处理保持保密。

不应因此而责备Google,因为否认使用点击数据涉及两个关键方面。首先,承认使用点击数据可能会引发媒体对隐私问题的强烈反应,将Google描绘成一个跟踪我们在线活动的“数据章鱼”。然而,使用点击数据的目的是为了获得统计上相关的指标,而不是监控个别用户。虽然数据保护倡导者可能有不同看法,但这种解释有助于理解这种否认。 FTC文件确认点击数据确实用于排名目的,并在这种情况下频繁提到NavBoost系统(在2023年4月18日的听证会上提到54次)。2012年的一次正式听证会也揭示了点击数据对排名的影响。

google-search

确定,搜索结果的点击行为以及网站或网页的流量都会影响排名。Google可以轻松评估搜索行为,包括搜索、点击、重复搜索和重复点击,这些都可以直接在搜索结果页面(SERP)中完成。 有人猜测Google可能会从Google Analytics中推断出域名的流量数据,这导致一些人选择避免使用该系统。然而,这一理论有其局限性。

首先,Google Analytics并不能提供域名的所有交易数据。更重要的是,超过60%的人使用GoogleChrome浏览器(超过三十亿用户),Google因此收集了大量的网络活动数据。

这使得Chrome成为分析网络流量的重要组成部分,正如在听证会上所强调的那样。此外,核心网络指标(Core Web Vitals)信号也通过Chrome正式收集,并汇总为“chromeInTotal”值。

“监控”带来的负面宣传是Google否认这一点的原因之一,另一个原因是担心评估点击和流量数据可能会鼓励垃圾邮件发送者和欺诈者利用机器人系统伪造流量来操纵排名。虽然这种否认可能令人沮丧,但其背后的理由至少是可以理解的。

  • 存储的一些指标包括badClicks(不良点击)和goodClicks(良好点击)。评估中很可能包括搜索者在目标页面停留的时间、他们在该页面上查看的其他页面数量及其时间(来自Chrome的数据)。
  • 如果搜索者短暂访问一个搜索结果后迅速返回搜索结果页面并继续点击其他结果,这会增加不良点击的数量。搜索会话中最后一个“良好”点击的搜索结果被记录为lastLongestClick(最长点击)。
  • 数据会被压缩(即浓缩),以便在统计上实现规范化,并减少受到操纵的可能性。
  • 如果某个页面、一组页面或一个域名的主页整体上有良好的访问者指标(来自Chrome的数据),这将通过NavBoost产生积极影响。通过分析域内或跨域的运动模式,甚至可以判断导航是否能为用户提供良好的引导。
  • 由于Google衡量整个搜索会话,理论上在极端情况下,甚至可能识别出一个完全不同的文档更适合某个搜索查询。 如果搜索者在搜索中点击了一个域名后离开,并访问了另一个域名(可能是因为从那里链接过去的),并且在该域名上结束了搜索,这个“结束”文档在未来可能通过NavBoost被推到前面,前提是它在选择环集中可用。 然而,这需要来自许多搜索者的强烈统计信号。

让我们先来看看搜索结果中的点击情况。搜索结果页面(SERP)中的每个排名位置都有一个预期的平均点击率(CTR),作为性能基准。例如,根据Johannes Beus在今年柏林CAMPIXX会议上提供的分析,自然排名第一的位置平均获得26.2%的点击,而排名第二的位置则获得15.5%的点击。

如果某个片段的实际CTR显著低于预期值,NavBoost系统会记录这一差异并相应地调整DocID的排名。如果某个结果的历史点击量显著高于或低于预期,NavBoost会根据需要将文档的排名上调或下调(见图6)。

google-search

这种方法是有意义的,因为点击基本上代表了用户对结果的相关性基于标题、描述和域名的投票。这一概念甚至在官方文件中详细说明,如图7所示。

google-search

由于我们的铅笔文档仍然是新的,因此还没有可用的点击率(CTR)值。目前尚不清楚对于没有数据的文档,CTR的偏差是否会被忽略,但这似乎很有可能,因为目标是纳入用户反馈。 或者,CTR可能最初会根据其他值进行估算,类似于Google Ads中处理质量因子的方式。

  • SEO专家和数据分析师长期以来报告称,当全面监控他们自己的点击率时,发现了以下现象:如果一个文档在搜索查询中新进入前10名,但其CTR显著低于预期,那么在几天内(取决于搜索量),你可以观察到其排名下降。
  • 相反,如果CTR显著高于排名的预期,排名往往会上升。如果CTR表现不佳,你只有短暂的时间来反应和调整片段(通常通过优化标题和描述)以获得更多点击。否则,位置会恶化,随后很难重新获得。 这一现象背后可能是测试。如果一个文档表现良好,它就能留下来。如果搜索者不喜欢它,它就会再次消失。这是否真的与NavBoost有关,尚不明确,也无法最终证明。

根据泄露的信息,Google似乎使用了页面“环境”的大量数据来估算新页面的信号。

例如,NearestSeedversion表明,主页的PageRank(HomePageRank_NS)会转移到新页面上,直到它们发展出自己的PageRank。此外,pnavClicks似乎用于估算和分配通过导航点击的概率。

计算和更新PageRank需要耗费大量时间和计算资源,因此可能使用了PageRank_NS这个指标。“NS”代表“最近的种子”,意味着一组相关页面共享一个PageRank值,这个值会临时或永久地应用于新页面。

还可能将邻近页面的值用于其他关键信号,帮助新页面在缺乏显著流量或反向链接的情况下提升排名。许多信号并不是实时分配的,可能涉及显著的延迟。

  • Google在一次听证会上以“新鲜度”为例,提供了一个很好的示例。例如,如果你搜索“斯坦利杯”,通常搜索结果会显示那个著名的奖杯。 然而,当斯坦利杯冰球比赛正在进行时,NavBoost会调整结果,优先显示有关比赛的信息,以反映搜索和点击行为的变化。
  • 新鲜度并不指新(即“新鲜”)文档,而是指搜索行为的变化。据Google称,每天在搜索结果页面(SERP)中有超过十亿(这不是错字)新的行为! 所以每一次搜索和每一次点击都在为Google的学习贡献。假设Google了解一切季节性变化的说法可能并不准确。Google能够识别搜索意图中的细微变化,并不断调整系统——这营造了Google实际上“理解”搜索者需求的错觉。

最新发现表明,文档的点击指标在13个月内被存储和评估(其中一个月的时间重叠用于与前一年进行比较)。

由于我们假设的域名具有强大的访客指标和广告带来的大量直接流量,作为一个知名品牌(这是一个积极信号),我们新的铅笔文档从较早的成功页面的有利信号中受益。

因此,NavBoost将我们的排名从第14位提升至第5位,使我们进入“蓝色环”或前10名。这份前10名的名单,包括我们的文档,然后与其他九个自然搜索结果一起被转发到GoogleWeb服务器。

  • 与预期相反,Google实际上并没有提供太多个性化的搜索结果。测试可能表明,通过建模用户行为并对其进行更改,比评估单个用户的个人偏好能够产生更好的结果。
  • 这很值得注意。通过神经网络的预测现在比我们自己的浏览和点击历史更适合我们。然而,个人偏好,如对视频内容的偏好,仍然会包含在个性化结果中。

GWS:一切的终结与新的开始

Google的Web服务器(GWS)负责组装和呈现搜索结果页面(SERP)。这包括10个蓝色链接,以及广告、图片、Google地图视图、“人们还问”部分和其他元素。

Tangram系统处理几何空间优化,计算每个元素所需的空间以及有多少结果可以适应可用的“盒子”。然后,Glue系统将这些元素排列在它们适当的位置。

我们的铅笔文档目前排名第5,是有机搜索结果的一部分。然而,CookBook系统可以在最后一刻进行干预。 这个系统包括FreshnessNode、InstantGlue(在24小时内反应,延迟约10分钟)和InstantNavBoost。这些组件生成与时效性相关的额外信号,并可以在页面显示前的最后时刻调整排名。

假设一档关于法伯-卡斯特尔250年历史和“铅笔”一词的神话的德国电视节目开始播出。在几分钟内,成千上万的观众拿起他们的智能手机或平板电脑进行在线搜索。这是一个典型的场景。 FreshnessNode检测到“铅笔”搜索量的激增,并注意到用户在寻找信息而非购买,因此相应地调整了排名。

在这种特殊情况下,InstantNavBoost会实时移除所有交易型结果,并用信息型结果替代它们。然后,InstantGlue更新“蓝色环”,导致我们之前以销售为导向的文档从排名中掉出,取而代之的是更相关的结果。

google-search

虽然这个假设中的排名终结让人感到遗憾,但它说明了一个重要的点:要取得高排名,不仅仅是拥有一个优秀的文档或实施高质量内容的正确SEO措施。

排名可能受到多种因素的影响,包括搜索行为的变化、其他文档的新信号和不断变化的环境。因此,必须认识到,拥有出色的文档并做好SEO只是更广泛、更动态的排名格局中的一部分。

编排搜索结果的过程极其复杂,受到数千个信号的影响。随着SearchLab使用Twiddler进行的大量实时测试,即使是指向你文档的反向链接也可能受到影响。

这些文档可能会从HiveMind被转移到不太关键的层级,如SSD甚至是TeraGoogle,这可能削弱或消除它们对排名的影响。即使你的文档没有发生任何变化,这也可能导致排名变化。

Google的John Mueller强调,排名下降往往并不意味着你做错了什么。用户行为的变化或其他因素可能会改变结果的表现。

例如,如果搜索者随着时间的推移开始偏好更详细的信息和较短的文本,NavBoost会自动相应调整排名。然而,Alexandria系统或Ascorer中的IR分数保持不变。

一个关键的结论是,SEO必须在更广泛的背景下理解。如果文档与其搜索意图不符,优化标题或内容将不会有效。

Twiddler和NavBoost对排名的影响往往超过传统的页面内、站内或站外优化。如果这些系统限制了文档的可见性,额外的页面优化效果将微乎其微。

然而,我们的旅程并不会以低谷结束。关于铅笔的电视节目的影响是暂时的。一旦搜索热潮消退,FreshnessNode将不再影响我们的排名,我们将回到第5位。

随着我们重新开始收集点击数据的循环,预计第5位的点击率(CTR)约为4%(根据SISTRIX的Johannes Beus)。如果我们能维持这个CTR,我们可以期待保持在前十名。届时一切都会好转。

SEO关键要点

  • 多元化流量来源: 确保你从多个来源获取流量,而不仅仅是搜索引擎。来自不太明显渠道的流量,如社交媒体平台,也具有价值。即使Google的爬虫无法访问某些页面,Google仍然可以通过Chrome浏览器或直接URL跟踪有多少访问者来到你的网站。
  • 建立品牌和域名意识: 始终致力于增强品牌或域名的知名度。人们对你的名字越熟悉,他们在搜索结果中点击你网站的可能性就越大。为多个长尾关键词进行排名也可以提升域名的可见度。泄露的信息表明,“网站权威”是一个排名信号,因此,建立品牌声誉有助于提升搜索排名。
  • 理解搜索意图: 为了更好地满足访客的需求,尝试理解他们的搜索意图和搜索历程。使用Semrush或SimilarWeb等工具查看访客来自哪里,以及访问你的网站后去了哪里。分析这些域名——它们是否提供了你的着陆页所缺乏的信息?逐步补充这些缺失内容,以成为访客搜索之旅的“终点站”。请记住,Google会跟踪相关的搜索会话,并准确知道搜索者在寻找什么以及他们已经搜索过什么。
  • 优化标题和描述以提高点击率(CTR): 从检查你当前的CTR开始,并进行调整以增强点击吸引力。将几个重要的词语大写可以帮助它们在视觉上更突出,可能会提高CTR;测试这种方法,看看是否对你有效。标题在决定你的页面是否能够为搜索词组排名中发挥关键作用,因此优化标题应是首要任务。
  • 评估隐藏内容: 如果你使用手风琴(accordion)式布局“隐藏”需要点击才能显示的重要内容,检查这些页面是否有高于平均水平的跳出率。当搜索者无法立即看到他们是否来对了地方并且需要多次点击时,负面点击信号的可能性就会增加。
  • 移除表现不佳的页面: 如果某些页面没人访问(通过网站分析)或在较长时间内未能获得良好排名,应根据需要移除它们。不良信号也会传递给相邻的页面!如果你在一个“差劲”的页面集群中发布新文档,这个新页面几乎没有机会脱颖而出。“deltaPageQuality”显然实际上衡量了域名或集群中各个文档之间的质量差异。
  • 增强页面结构: 清晰的页面结构、简便的导航和强烈的第一印象对于实现顶级排名至关重要,通常得益于NavBoost。
  • 最大化用户参与度: 访客在你的网站上停留的时间越长,你的域名传递的信号就越好,这对你的所有子页面都有好处。力争成为最终目的地,提供他们所需的所有信息,使访客不必去其他地方搜索。
  • 扩展现有内容,而非不断创建新内容: 更新和增强现有内容可能更为有效。ContentEffortScore衡量创建文档所付出的努力,像高质量图片、视频、工具和独特内容等因素都为这一重要信号作出贡献。
  • 使标题与其介绍的内容保持一致: 确保(中间)标题准确反映其后面的文本块。使用如嵌入(文本向量化)等技术的主题分析比纯粹的词汇方法更有效地识别标题和内容是否匹配。
  • 利用网络分析工具: 使用Google Analytics等工具可以有效跟踪访客参与度,并识别和解决任何不足。特别关注你的着陆页的跳出率。如果跳出率过高,调查可能的原因并采取纠正措施。记住,Google可以通过Chrome浏览器访问这些数据。
  • 目标低竞争度关键词: 你还可以首先关注那些竞争较少的关键词,以更容易地建立积极的用户信号。
  • 培养高质量的反向链接: 专注于来自HiveMind中近期或高流量页面的链接,因为这些链接提供更有价值的信号。来自流量或参与度较低页面的链接效果较差。此外,来自同一国家内的页面以及与内容主题相关的链接更为有利。请注意,“有害”反向链接确实存在,它们会对你的评分产生负面影响,应该避免。
  • 注意链接周围的上下文: 排名时不仅考虑锚文本本身,还考虑链接前后的文本。确保链接周围的文本自然流畅。避免使用像“点击这里”这样的通用短语,这种做法在过去二十多年里都已无效。
  • 注意Disavow工具的局限性: Disavow工具用于使无效链接失效,但泄露信息中完全没有提到这个工具。似乎算法并不考虑它,它主要为垃圾邮件防御提供文档用途。
  • 考虑作者的专业性: 如果你使用作者引用,确保他们也在其他网站上被认可并展示了相关的专业知识。拥有少数高度合格的作者要比拥有大量不太可信的作者更好。根据一项专利,Google可以根据作者的专业性评估内容,区分专家和普通人。
  • 创建独特、有帮助、全面且结构良好的内容: 这对于关键页面尤其重要。展示你在该主题上的真正专业知识,并在可能的情况下提供证明。虽然为了填充页面而请人撰写内容很容易,但如果没有真正的质量和专业性,设定高排名期望可能并不现实。

本文的一个版本最初于2024年8月以德文发表在《Website Boosting》第87期。 特邀作者受邀为Search Engine Land撰写内容,他们因其专业知识和对搜索社区的贡献而被选中。我们的作者在编辑团队的监督下工作,所有投稿都会经过质量和与读者相关性的检查。他们表达的观点仅代表个人意见。

本文翻译自:https://searchengineland.com/how-google-search-ranking-works-445141