导向强调了对序列

Bappy11 · Post by **Bappy11** » Sat Feb 08, 2025 3:30 am

然而，这些结构几乎只链接到 1950 年左右以后发表的文章，并且倾向于提供科学家感兴趣的信息，例如文章的发表日期，而不是提交日期。这些数字工具为科学史学家提供了新的研究策略。然而，我们需要更加关注那些由于各种原因通常无法进入当今自然科学家数字世界的文本：教科书、会议记录、非英语文章或涉及不符合任何后续学科分类的主题的旧期刊。因此，科学史的数字化是由当今自然科学的数字化所塑造的。反思这一过程非常重要，可以避免科学史学家不加思索地将他们的数字化工作环境视为传统非数字化方法的简单改进（透明度、效率）。

3.案例研究：arXiv
arXiv是什么？ »arXiv 是一个开放访问、经过审核的特定科学学科学术论文存储库。« [7] 许多学科的自然科学家通常会在论文发表在研究期刊之前将论文上传到那里。某些类型的文本只能在 arXiv 上找到，例如会议论文、评论文章和讲义。参赛页面列出了论文所属的类别：物理学、数学、计算机科学、定量生物学、定量金融和统计学。每个类别又分为子类别，作者在上传文章时决定其确切的分类。然而，arXiv 的工作人员可能会改变这个选择，甚至阻止该文章的发表。尽管 arXiv 上的电子预印本是纯数字结构，但我们非常重视确保它们与印刷预印本一样不可变。一旦文本出现在 arXiv 上，就不能被删除或修改。作者唯一能做的就是在文章的第一个版本旁边上传新版本。这种通过版本控制进行的自我存档对历史学家来说是有益的，但并不对应于数字化的预印本，因为印刷文本永远不会像数字文本那样永久存在且普遍可用。

arXiv的发起人和主要运营者是高能物理学家Paul Ginsparg。[8] 1991 年在洛斯阿拉莫斯国家实验室工作期间，金斯帕格开发了一套通过电子邮件交换理论高能物理预印本数字版本的系统。随着万维网的出现，arXiv 成为了科学家可以独立上传论文的在线平台。当金斯帕格搬到康奈尔大学时，arXiv 也搬到了那里。20 世纪 90 年代，arXiv 又增加了数学、固体物理学和计算机科学等其他学科。[9]这一发展起源于高能物理学而不是计算机科学等，这可以通过高能物理学家也是引入预印本的先驱这一事实来解释。 arXiv 现在非常成功，并且对于某些研究领域来说不可或缺，因为几乎所有该学科的研究论文都上传到那里。例如，这适用于物理学的大多数领域（高能物理学、固体物理学、天体物理学）和数学，以及计算机科学学术研究的重要部分。在这些学科中，arXiv 通常是想要了解最新动态的科学家的唯一来源。 Ginsparg、他的同事和许多其他科学家认为，与传统期刊出版相比，arXiv 是一种更简单、更高效、更便宜、更民主的学术出版形式。事实上，任何能访问互联网的人都可以免费阅读 arXiv 上的文章。出版速度比同行评审期刊更快，文章都收集在同一个地方，可以使用数字工具轻松搜索。乍一看，这似乎是对现有实践进行数字化优化的一个案例。但事情没那么简单。

首先，arXiv 使某些领域的大多数新研究论文每天都可以同时向任何有互联网连接的人提供。这实际上意味着研究条件的民主化，因为不需要机构或个人联系即可了解最新结果。但与此同时，这也导致了一种无差别的材料洪流，其中缺少了以前引起研究人员注意的因素，例如期刊的机构或学科隶属关系、指出有趣的新出版物的个人联系，或专门发送其作品副本的作者主动提出。相反，一些元素的相关性会增加，比如知名研究人员的“知名度”或文章标题的挑衅性、原创性设计。在发表当天在 arXiv 列表中排名第一也是一个非常有效的因素，可以显著增加文章的引用次数。[10]作者会特意选择提交 arXiv 文章的时间，以增加文章被置于每日榜单顶部的概率。为了研究这些和类似的影响，科学史学家可能需要考虑未来对电子商务和社交媒体的研究结果。

arXiv 与传统同行评审期刊之间有什么关系？最初，上传到 arXiv 是完全免费的，但后来引入了“审核”（无需同行评审），如下所述，并在 2004 年引入了至今仍有效的“认可”系统。[11]尚未在 arXiv 上发表文章的科学家必须得到在 arXiv 上相应子类别中经常发表文章的人士的推荐。推荐人应该认识被推荐的人或者看过该文章。 “您应该认识您认可的人，或者您应该看到该人打算提交的文件”。[12]有趣的是，与理想的匿名同行评审程序相比，个人熟人似乎与文章内容同样重要。如上所述，贡献也受到审核，因此可能会发生审核人员不允许将文章发布在 arXiv 上的情况，尽管该文章已获得认可。该程序已经引发了人们对缺乏理由的抱怨。[13] arXiv 出版政策规定：“提交给 arXiv 的材料应满足相关学科的兴趣、相关性和价值。 arXiv 保留拒绝或重新分类任何提交的权利。[14]

然而，arXiv 版主最重要的任务不是拒绝文章，而是检查文章是否“符合主题”或“偏离主题”，如果是，则将其重新归类到他们认为正确的类别中。科学社会学家 Kristrún Gunnarsdóttir 也曾担任 arXiv 版主，他分析了这一过程及其认识论和社会影响。她解释说，在 Ginsparg 看来，认可和主题内/外决定不仅代表了同行评审过程的一种高效且经济的替代方案，而且还满足了科学交流的所有必要标准。这包括消除所谓的“疯子”并将文章分配给正确的“主题”专家组。因此，专家可以自己决定每篇文章的价值；他们不需要同行评审。 Gunnarsdóttir 认为，研究期刊之所以存在，是因为职业决策也涉及非专家，他们需要通过传统出版物获得某种形式的官方认证。 Gunnarsdóttir 还指出，arXiv 系统通过认可偏向学术机构的研究人员，并鼓励开/关主题分类以关注现有的研究主题，从而强化了现有的学科权威结构。继金斯帕格之后，古纳斯多蒂尔似乎或多或少明确地从技术决定论的角度看待这一发展。然而，对于科学史学家来说，这呈现出一种极其令人兴奋的景象，可以将其与知识媒体和科学权威之间互动的早期案例进行比较。这个话题尤其有趣，因为 arXiv 由于其数字特性而占据着事实上的垄断地位，而这在学术界很少被讨论。然而，近年来的美国电报数据冲突表明，情况比最初看起来要复杂得多：[15]不受监管的出版平台 viXra 诞生于 arXiv [16]和网站Archive Freedom的出版政策之争代表那些感到受到 arXiv 不公平对待的作者。最为人熟知的冲突可能与弦理论有关，金斯帕格本人也活跃于该领域，冲突发生在2006年所谓的“弦战争”的背景下。[17]

目前，arXiv 的技术发展正在进一步朝着提高自动化的方向迈进。其运营商还开发了软件，可以自动检查上传文章的科学相关性。[18] Ginsparg 和科学社会学家 Harry Collins 和 Luis Reyes-Galindo [19]进行的一项研究表明，这种自动化程序还不能（目前？）取代人工审查。然而，Ginsparg 认为 arXiv 是迈向理想的、自动化的、算法支持的“科学知识结构”的第一步：

»专业密集型的标签、链接、评论、更正、本体贡献和链接，所有这些都是积极策划的，将变得越来越重要，将数据库和文本粘合在一起，形成一个更强大的知识结构。此类工作将需要被视为学术成就，并成为未来传统期刊出版的类似物。学术基础设施也将采用被动吸收读者、书签和注释行为的方式，与上述主动组件相结合，以自下而上的方式进行质量控制。目标是创建一个半监督和自我维护的知识结构，通过综合概念进行导航，清除冗余和模糊性，并提供来源、验证和突出显示新颖性。我们的文献浏览将更加全面，由能够了解我们自己和集体用户行为的算法引导；我们对各个部分的解读更加深入，并以与文字、方程式、图形和数据相关的解释性和补充性资源为指导。« [20]

在我看来，这段话最能说明在自然科学史背景下对 arXiv 的理想和现实进行历史语境化，如何代表数字化对科学史提出的特别紧迫的挑战。