[]由于构建的数据集仅以 PDF 的形式提供

A collection of data related to the UK.
Post Reply
Bappy11
Posts: 350
Joined: Sun Dec 22, 2024 6:05 am

[]由于构建的数据集仅以 PDF 的形式提供

Post by Bappy11 »

3.2 方法
[ 20 ]我们确定了三位译者,他们都翻译了莎士比亚和斯科特的作品,有时甚至是同一本。我们还确定了译者最有可能使用的英文版本。这使我们能够建立一个书籍级别的英德平行语料库,让我们再次排除令人困惑的作者信号。
可从 Google 图书和互联网档案馆或相应的合作机构获取,因此 OCR 是将文体学工具应用于文本语料库的必要步骤。为了评估现成的 OCR 方法的质量并提高 OCR 质量,我们为每本书随机选择了一组页面进行手动转录。

3.2.1 准备
[ 22 ]根据 OCR-D 计划的规范和最佳实践,[15]对于每本书,我们创建了一个 METS [16]文件,其中包含源 PDF 的链接以及所选页面。以下示例展示了其中一个 METS 文件的摘录:

图 1:我们数据集中使用的 METS 文件的摘录。对于每本书,我们创建了一 秘鲁电报数据 个 METS 文件。资源链接包含标识符和页码。[Lassner 等人,2021]
图 1:我们数据集中使用的 METS 文件的摘录。对于每本书,我们创建了一个 METS 文件。资源链接包含标识符和页码。[ Lassner 等人,2021 年]
[ 23 ]PDF 已从此 METS 文件中的 URL 下载,并且页面图像已从 PDF 中提取、去歪斜并保存为 PNG 文件。[17]

3.2.2 转录
[ 24 ]对于转录,我们使用了 Kraken 2.0.8 的标准布局分析器(根据布局,使用黑色或白色列分隔符),并使用德语 Fraktur 或英语现成模型预先填充转录,然后手动进行后期校正。为了确保一致性,一些字符被标准化:例如,我们遇到了多个连字符,例如-和 ⸗,它们都转录为-。

3.2.3 尺寸
[ 25 ]该数据集总共包含 5,354 行,224,745 个字符。它包括 1815 年至 1852 年的德语和英语书籍。该数据集特征的详细描述如表 2所示。

3.3 可重复性和可访问性
[ 26 ]数据集公式已作为 PAGE 文件和 METS 文件的集合发布。[18] PAGE 文件包含行级转录,METS 文件充当链接元数据、PDF 源和转录的容器。每个项目有一个 METS 文件(对应于 Google Books 或 Internet Archive id),每个 PDF 页面有一个 PAGE 文件。以下示例 PAGE 文件的摘录显示了如何对一行文本进行编码:
Post Reply