抓取之间的界限以及链接的源页面和目标页面之间可能存在的时间差异更有价值。这种交付策略使得浏览存档网站时的时间差异得到平滑。由于 Wayback Machine 尝试在重放中提供整个对象,但只提供不同时间片的页面部分,重放中请求的页面未包含在当前显示的抓取中,因此来自其他抓取的数据(因此来自不同时间的抓取的数据)将被传递。因此,可能会发生这样的情况:当浏览档案对象时,通过单击链接从一个页面移动到下一个页面时,会提供更早或更晚时期的数据。这凸显了对档案对象的根本理解之间的重要差异。尽管互联网档案馆尝试通过使用 Wayback Machine 插入不同的抓取数据来创建万维网的完整图像,但定期进行完整抓取的策略更倾向于定义对象版本的时间统一性。这里肯定可以与编辑语言学概念建立联系,例如关于作品的个别版本。[9]
[ 19 ]档案对象的概念化和实际设计对于文本起源和作品设计的可能重建以及可以通过引用档案对象来证明的有效性声明具有影响。从重建特定时间点或特定时间段的完整版本的角度来看,互联网档案馆中Ze zurrealism 本身的版本在本质上是不完整的。首先,爬行活动没有规律。抓取的频率可能与页面的变化频率和程度相关,但抓取与文本变化并不同步。其次,从我们基于时间片或者有限时间段的重建角度来看,互联网档案中的抓取是不完整的,因为爬虫程序判断没有发生改变的页面和页面元素不会被再次保存。因此,档案中存储的版本不是授 新西兰电报数据 权或精选的版本,并且它们不是基于书写和存档的同步,因此只能在档案对象的基础上谨慎地并通过额外的数据分析来确保合理性,才能对文本更改和版本差异做出可靠的陈述。在Ze zurrealism itzelf的案例中,结果表明,RSS 提要和 Tumblr 自身对所有活跃帖子的存档汇编可以作为帖子聚合的两个功能,由于自动摘要,这些帖子几乎包含了当时所有活跃的条目,并且准确性很高。
3.2 重建
[ 20 ]通过不断地修改和删除,版本的诗意体现了Ze zurrealism 本身的特点,因此在一定程度上抵消了互联网档案馆的收集策略,因为该博客的当代版本在互联网档案馆中已不再完全可见。尽管如此,这些数据可以用于近似反映处理状态的重建。在本研究过程中,我们进行了回顾和重建。将来,该博客将被收录到马尔巴赫德国文学档案馆的“网络文学”系列中。[10]追溯归档现在创建了第二个档案对象,该对象与互联网档案馆中的对象相关,但由于数据和存储结构不同,与其并不完全相同。从互联网档案馆下载的数据必须进一步处理以进行文学分析。我们所说的“重建”是指数据处理,以及由此得出的博客版本和单个帖子的开发表示。这明确仅指基于我们从互联网档案馆接管、处理和重新存档的数据制作和呈现版本。下面我们来谈谈追溯存档。与网络存档领域的完整重建不同,这并不是对博客按照时间顺序的完整重建,我们认为这在数据的基础上是不可信赖的。此外,为分析而开发的表示形式不包含博客的完整布局。