专利中的更多有趣见解

A collection of data related to the UK.
Post Reply
Reddi1
Posts: 440
Joined: Thu Dec 26, 2024 3:12 am

专利中的更多有趣见解

Post by Reddi1 »

该专利还指出,实体主要是语法句子结构中的名词。 (另请参阅我的文章《谷歌如何从非结构化内容中识别和解释实体?》和《自然语言处理在数据挖掘、实体和搜索查询中的作用》)。

此外,该专利还通过示例描述了实体概念的作用。

实体通常指代实体的概念。在一些实现中,实体引用是指代实体的引用,例如文本字符串。例如,实体引用“纽约市”是对实际城市的引用。

还讨论了实体类型。 (您可以在我的文章《您需要了解的有关实体类型、类别和属性的所有信息》中找到更多相关信息。)

在一些实现中,实体与实体类型相关联。如本文所用,类型是与一个或多个实体相关联的分类或定义特征。例如,类型可以包括人员、地点、电影、音乐家、动物等。例如,“谁”问题可能有人员类型的答案。

关于实体引用的内容如下:

在一个示例中,从与特定网页相关联的 实体引用110检索的信息 是出现在该网页中的人员列表。例如,特定网页可以包括多个人员的姓名,并且实体引用110 可以包括网页内包括的人员的姓名列表。实体引用 110 还可以包括其他信息。在一些实现中,实体引用 110 包括不同类型的实体引用,例如人员、地点和日期。在一些实现中,多个实体类型的实体引用被维护为单个带注释的实体引用列表、单独的列表、任何其他合适的信息格式或其任何组合。将理解,在一些实现中,实体引用 110 和索引 108 可以存储在单个索引中、多个索引中、任何其他合适的结构中或其任何组合中。

该专利还讨论了通过聚类方法来建立文本中实体之间的关系。某些术语之间共现的频率起着重要作用。

在一些实现中,系统使用聚类技术来识别非结构化内容中的实体引用。聚类是一种将相似对象分组的统计技术。聚类可以识别数据元素中的自然分组。对象组(例如文本字符串组)可用于识别结构化和/或非结构化内容中经常出现的单词和/或短语。例如,在非结构化文本中反复出现的人的名字和姓氏可以被识别为实体引用。

可以考虑以下因素来确定适当的搜索结果:

根据文档年龄进行及时性评分
指向文档或来自文档的链接数
先前搜索结果或搜索查询中文档的点击率
文档和搜索查询之间的关系强度
内容类型和实体引用之间的关系也可以在及时性评估中发挥作用:

在一些实现中,话题性得分取决于实体引用与实体引用出现 全球数据中的海外华人 的内容之间的关系。例如,实体引用 [George Washington] 在历史网页上可能比在当前新闻网页上具有更高的话题性得分。在另一个示例中,实体引用 [Barak Obama] 在政治网站上可能比在法学院网站上具有更高的话题性得分

在专利的最后写了很多关于知识图谱的结构和功能的基本内容,你也可以在我的文章《Google知识图谱简单解释》中读到。

但也有一些方面是我在以前的帖子中没有提到的。除了实体之外,知识图谱中的节点还可以表示实体类型等组织结构元素。

一般来说,知识图谱中的节点可以分为几类。节点可以表示实体、组织数据(例如实体类型和属性)、文字值以及其他节点之间的关系模型。知识图谱的节点可以表示实体,如上所述。

此外,我们将讨论知识图谱来自哪些数据源。除了各种外部来源、手动输入等已知的来源之外,还提到将添加尚未记录的经常请求的实体。

例如,内容可以通过手动用户输入、自动响应用户交互、从外部源导入数据、任何其他合适的技术或上述任何组合来生成。例如,如果知识图谱中未显示常用搜索词,则可以添加一个或多个表示该节点的节点。在另一个示例中,用户可以手动添加信息和组织结构。
Post Reply