这就产生了一个高度复杂的来源背景,再次以高度简化的形式呈现如下:
作者 A 使用源作品 作者 A 引用来源 a、b、...(作者 NN)
作者 A 释义、评论 a、b、...
后来的作者(B、C、...)使用作者 A
后来的作者(B、C、...)用 a、b、... 引用作者
A 后来的作者(B、C、...)用 a、b、... 解释作者 A
后来的作者(D、E、...)用 a、b、... 评论作者 A (评论、评注)
片段集/版本
作者 A 的版本(考虑到手写副本)
作者 B、C、... 的版本
作者 D、E 的评论版本
重建版本: 作者 NN 的片段作为作者 F、G 来自
作者 A、B、C、D、E... 带有 a、b、...
残篇集的版本代表了它们自身的第三个层次,其中整个作品的背景和作者是通过分配来源截然不同的文本段落来构建的。这些残篇在使丢失的内容可见并重建方面具有几乎不可估量的价值 - 但在分析古代传统中的传统路径方面也存在缺乏透明度的危险。文本版本的权威性(在残篇版本中尤其明显)掩盖了文本的复杂层次。有多种原因导致这些不同的传统层面很少在版本、注释,尤其是 Apparatus fontium 中得到充分体现。这些原因还植根于对作者身份的理解和编辑工作的惯例,然而,这导致很难分析文本段落和作者之间的关系。
一方面,这种作者和作品语境的建构使人们能够洞悉许多未能保存下来的作 智利电报数据 品,但另一方面,由于将文本段落作为片段提取或多或少使这些文本段落脱离了语境,因此叙事语境也随之丢失。
对于简单或组合的单词搜索,当今的古代科学中当然有成熟的程序可用。[8]然而文本挖掘方法的搜索功能远不止于此。作为一种成熟的识别精确匹配的方法,字符串匹配算法现在用于查询关系数据库:例如,Levenshtein 距离作为计算相似度的度量,表示需要多少次操作才能从另一个字符串得出一个字符串。 N-gram 搜索计算一个字母或字符串组合跟随另一个字母或字符串组合的概率。只要有文本参考,并且词序至少有一点点相似,这两种方法都可以使用。共现分析寻找更高层次的片段(句子、语料库)中两个词汇单位的共现。例如,如果两个术语经常一起出现在一个句子中,那么就可以合理地假设存在依赖关系,无论是语义还是语法性质的。使用统计计算来确定疑似依赖性的度量。[9]
这就引出了本文开头提出的问题,即这种共现搜索是否能够确定一种上下文并表明语义联系,而这种联系既不明显也不常见,也无法通过其他传统的或其他已建立的搜索策略或方法实现,这些策略或方法是从使用词典、参考书、索引、索引、搜索程序发展而来的,并且适用于古代研究中建立的所有全文数据库。[10]