在我的SEO 语义和实体系列文章中,这篇文章讨论了 Google 如何使用自然语言处理和向量空间分析等技术,识别和对具有实体引用的搜索查询的合适内容进行排名。为此,我研究了 20 多项 Google 专利和其他来源,并总结了下面的摘录。
目录[隐藏]
1实体在搜索中的作用
2相关性在谷歌的作用
3使用自然语言处理确定文档的相关性
4使用向量空间分析确定文档的相关性
5确定企业相关文件
6基于实体的文档评分
7实体、自然语言处理和向量空间分析是索引和排名的核心方法
谷歌的8 项专利,用于使用实体确定内容的相关性
8.1根据实体指标对搜索结果进行排名
8.2识别主题实体
8.3 语义分析引擎训练与评估的自动标注
8.4使用非结构化数据中的实体引用进行问答
8.5使用实体属性选择内容
8.6使用图形协调自动发现新实体
8.7对已排序搜索结果进行重新排序的系统和方法
8.8根据实体频率进行文档排序
8.9用于实体解析的附加上下文模型
8.10根据文档中术语之间的语义距离对文档进行排序
实体在搜索中的作用
为了保持总体概述,我想首先总结一下 Google 等信息检索系统中实体可能执行的任务。
基于实体的信息检索系统需要完成以下任务
搜索查询的解释
文档级别的相关性判断
域级别/发布者评估
以知识面板、精选摘要等形式发布临时答案……
在所有这些任务中,都必须满足实体之间的交互、搜索查询和内容的相关性。在文章语义搜索:搜索查询解释中的实体中,我详细介绍了 Google 如何根据实体解释搜索查询。本文重点介绍如何确定文档与搜索查询中确定的实体和/或搜索词的相关性。
相关性在谷歌的作用
正如谷歌的《相关性、针对性和有用性》一文中所解释的那样,必须在相关性(客观相关性)、针对性(主观相关性)和有用性(情境相关性)之间做出根本区分。在本文中,我将仅关注文档的客观相关性,因为针对性和实用性与个性化有更大的关系。
相关性确定分两个步骤进行。首先,必须根据搜索查询确定一个包含 n 个文档的文档语料库。这通常是通过非常简单的信息检索过程来完成的。文档中搜索词或同义词的出现在这里起着重要作用。然后可以为这些文档提供类似 vk数据库 于标签的注释或评论,以便按主题对其进行分类。理论上,这些也可以用附加标签进行评论,例如根据目的(销售、建议、通知……)。然而,这个过程很可能在内容被解析时已经发生了。然后,该文档将在索引中提供,并附带注释。
当触发搜索查询时,搜索引擎会访问包括评论在内的相应文档集。对搜索查询或搜索意图的解释起着决定性的作用。我在文章《语义搜索:搜索查询解释中的实体》和《概述:搜索意图和用户意图》中详细讨论了这个问题。
在第二步中,排名引擎(例如蜂鸟算法)使用评分来确定相应文档与搜索查询的相关程度。除了确定相关性之外,Google 还会应用其他评分级别,例如及时性或可信度 (trust)以及来源的权威性和专业知识 (EAT)来确定排名。这些评分类型的权重可能因行业甚至关键词的不同而不同。为了提高速度,此评分仅针对前 30-50 个最相关的搜索结果进行实时评分。
在这篇文章中,我将重点关注文档级别的相关性判断。我将在另一篇文章中讨论有关实体的信任和权威 (EAT) 的可能评估。
有两种主要方法可用于确定文档的相关性。