4.3 建模不确定性
图形数据库中存在表示不确定性的不同方法,具体取决于应用程序及其计划查询。例如,可以为确定值和不确定值创建不同的节点,例如为 ›Ziege‹(山羊)创建一个节点,为 ›Ziege?‹(山羊?)创建另一个节点。在最坏的情况下,这会导致节点数量翻倍。向节点添加表示不确定性的属性也会导致节点数量增加。另一种方法是使用边,要么提供不同类型的关系(例如 ›has‹ 和 ›may-have‹),要么包含权重。前者会导致图中关系数量增加。后一种方法将节点和边的数量保持在最低限度,还允许包含不确定性的度量,例如百分比。在此处介绍的数据模型中,不确定性通过应用从 0(0% 确定)到 1(100% 确定)的边权重来建模。
图形数据库中并不能表示第 3 节中提到的所有不确定性,只有在数据源中标记为不确定性的不确定性才有可能。权重也是使用 Cypher 脚本设置的,基于 Arachne 中提供的值。如果一个值没有任何不确定性标记(例如 ›Ziege‹(山羊)),则边的权重设置为 1。如果该值用问号标记为不确定(例如 ›Ziege?‹(山羊)),则边的权重为 1 > x < 0.5,在本例中设置为 0.8。对于给出两个选项的值,将创建两条边。这些边的权重取决于是否存在问号。像 ›Rind oder Ziege‹(牛或山羊)这样的值会导致两条边的权重为 0.5,即有 50% 的机会实际描绘出两个选项中的一个。值“Rind oder Ziege?”导致两条边的权重为 0.5 > y < 0,在本例中设置为 0.3。此外,还引入了一个计数,以便能够区分属于一个密封侧的两个不确定边对。
在图 9中,海豹 CMS IS 038 在 Neo4j 中显示为图形。连接海豹侧面和生物的三条边不确定,权重分别为 0.5 和 0.8。
图 9:Neo4j 中的 CMS IS 038 及其所有属性。由于值为“Rind oder Ziege”(牛或山羊),连接 A 侧与生物的边的权重为 0.5。B 侧与“Greif”(狮鹫)相连,权重为 0.8,因为值中有一个问号。[图片由维也纳的 Martina Trognitz 提供。]
图 9:Neo4j 中的 CMS IS 038 及其所有属性。由于值为“Rind oder Ziege”(牛或山羊),连接 A 侧与生物的边的权重为 0.5。B 侧与“Greif”(狮鹫)相连,权重为 0.8,因为值中有一个问号。[图片由维也纳的 Martina Trognitz 提供。]
5.用例
数据导入后,可以使用 Cypher 查询图形数据库。这样就可以查询所有带有生物的印章的数量(总共 724 枚印章)。此外,只需一次查询,就可以轻松识别和统计与节点类型 ›Lebewesen‹(生物)有不确定边的印章数量(329 枚印章)。在 Neo4j 提供的浏览器中查看数据库时,查询结果也可以可视化和探索,这是大多数关系数据库管理系统不提供的开箱即用功能。
如第一部分所述,建立图形数据库是为了便于对数据集进行网络分析。这将在印章上描绘的生物集上得到证明,其中一个特定的研究目标是找出印章上哪些生物是相互结合的。
对于此任务,需要一组包含所有生物及其之间连接的节点。由于数据库中不包含连接,因此必须使用图 10所示的查询来创建它们。
图 10:Cypher 查询在同一印章上描绘的两种不同生物之间建立链接,并增加该对在其他印章上每次出现的链接数(边的权重)。[图片由维也纳的 Martina Trognitz 提供。]
图 10:Cypher 查询在同一印章上描绘的两种不同生物之间建立链接,并增加该对在其他印章上每次出现的链接数(边的权重)。[图片由维也纳的 Martina Trognitz 提供。]
然后可以将其导出,以便使用网络分析软件(例如visone )进行处理。数据集可以以 graphML 格式提供,可以使用neo4j-shell-tools通过单个命令从 Neo4j 导出。这里使用图形数据库的另一个主要优势变得清晰,因为不必从第 2 节中介绍的四个表中繁琐地生成节点和边的列表。
两个不同的数据集被导出为 graphML,导入 visone,进行分析和可视化。图 11显示了数据集的结果图,其中包含所有不同生物的共现,包括确定和不确定的生物。当仅考虑确定性等于或大于 0.8 的生物时,该图会生成图 12中的图像。
图 11:网络可视化显示哪些生物经常一起出现在印章上。基础数据考虑了所有现存的描述,无论它们是确定的还是不确定的。[图片由维也纳的 Martina Trognitz 提供。]
图 11:网络可视化显示哪些生物经常一起出现在印章上。基础数据考虑了所有现存的描述,无论它们是确定的还是不确定的。[图片由维也纳的 Martina Trognitz 提供。]
图 12:网络可视化显示哪些生物经常一起出现在印章上。 0.8 的现有描绘。[图片由维也纳的 Martina Trognitz 提供。]
图 12:网络可视化显示哪些生物经常一起出现在印章上。基础数据仅考虑确定性等乌干达电报数据 于或大于 0.8 的现有描绘。[图片由维也纳的 Martina Trognitz 提供。]
6. 结论
当数据集中存在不确定性时,为具有多个密封面的爱琴海海豹实施图形数据库需要特别注意。不可能将数据集隐含的不确定性纳入数据模型,但对于那些显式的不确定性,存在各种方法。在这里展示的案例中,将不确定性建模为加权边被证明是最合适的。
实践证明,使用图形数据库非常直观、快捷,尤其是因为数据不仅以表格形式显示,还可以以带有可扩展节点的图形形式显示。因此,用户可以进一步探索查询结果。
使用网络分析软件导出数据以供进一步检查几乎是自然而然的事情,通过包含或排除不确定值,可以进一步调整此过程。所介绍的用例只是触及可能性的表面,例如,图 11中显示的结果确实包括不确定值的两个可能值以及选项。在进一步的实验中,可以通过仅包含一个选项来分析数据,然后将其与包含另一个选项的分析进行比较。
通过使用更多节点类型来扩展图形数据库模型,以便为生物引入更广泛的类别,例如“野生动物”或“家养动物”,也许能够揭示印章上图案使用所固有的根本规则。