大数据技术的发展正在破坏我们对档案资源描述和访问形式的理解。随着档案资源数量的激增,其形态已从静态迅速转向流动、关联的数据态。计算档案学应运而生,它依托大数据技术,诠释了档案资源从最初的创建、归档到最终的保存、使用过程,通过跨学科合作在每一个环节植入新思维和新技术,从而解开传统档案管理方法中存在的禁锢。其特征凸显为三方面:认识方式的改变、研究方法的突破、学科理论的创新。
1. 认识方式的改变:计算思维和档案思维深度融合
一直以来,档案研究人员都在利用数字技术探索档案的管理与保存,数字化技术已经渗透到档案数据的创建描述、长期保存、开放利用、敏感信息的保护等方方面面。但是,一方面,档案信息资源体量巨大、内容结构复杂、载体形式多元化等属性致使大量档案资源趋于孤立化、黑暗化。另一方面,由于档案工作者专业技能和工作视野受限,当前的档案研究仍停留在计算工具的零星使用。因此,要切实实现将纸本或图片上的档案信息转化为可挖掘、分析的元数据世界,必须首先转变思维方式,在档案学研究中融入计算思维,而不仅仅是计算工具的简单使用,也并非为单纯的多学科合作。Richard Marciano等人提出,除了利用技术来提高传统档案工作的效率、生产力和精确度外,还需要从根本上改变这两个学科,将计算与档案理论更完整地融合在一起。
计算档案学中的“计算”术语来自计算思维,即一种能够把问题及其解决方案表述成可以有效进行信息处理的思维过程,也有专家称之为数据驱动的数据过程。它起源于计算机领域,却又独立于计算机科学,目前计算思维已经广泛应用于其他领域,如计算社会科学、计算语言学、计算人类学、计算广告学等,成为大数据时代特有的一种跨学科交叉元素。将计算思维与档案思维结合,在认识方式上主要有以下几方面的优势:一是思维状态由静态到动态,由个体到系统的改变。在计算和档案思维深度融合的状态下,档案数据不再孤立,而成为一个相互关联的整体。二是思维结构由线性到非线性,由一维到多维的改变。更适合对复杂数字对象和多层级权限等进行研究,有利于档案专业人员把握研究对象的本质。三是判断和推理依据上的变化,由信息缺失到可计算分析的改变。借助大数据技术优势有利于我们进一步挖掘和体现档案资源的利用价值。
2. 研究方法的突破:大数据技术的应用构建潜在模块
计算档案学是一种跨学科探索性研究方法,也是一种以相关关系的发现为核心的研究方法。从实践层面上看,还是一种大数据和高维数据分析方法,它是由众多新研究方法集成的方法体系。通过利用数据挖掘和处理技术,计算档案学可以将大规模的高维数据结合起来,将纵向数据和横向数据结合起来,使我们可以从历史档案数据中把握相互影响的各种因素,从而为档案数据的妥善保存、质量把控、知识发现,以及利用档案资源研究社会问题找到新办法和新途径。
为此,马里兰大学数字管理创新中心(DCIC)联合英属哥伦比亚大学信息学院、德克萨斯高级计算中心、美国国家档案与管理记录局,共同探讨了利用大数据技术构建计算档案学的潜在模块,为跨学科背景下研究档案保存和记录特征提供参考。其主题为:(1)进化原型和计算语言学。进化原型是指基于用户需求,不断修改原型、迭代改进。计算语言学是基于统计或规则的自然语言计算模型,用于分析、组织和记录档案元数据。(2)数字人文和图形分析。图论正成为表示和查询复杂、互联及大型档案数据集的强大模型,能很好地展现档案资源的价值。(3)计算发现辅助工具。分析大型馆藏和提取元数据需要结合计算方法和交互式可视化功能,通过嵌入手写文本、历史图像、OCR识别、面部识别等多种类型元数据,将档案内容转化为可重用知识。(4)数字策展。科研赞助机构、政府、大学等已经充分认识到科学数据存档和分享的重要性,它涉及数据生命周期的所有阶段,包括捕获、分析、共享和保存。(5)公众参与档案内容。为丰富或开放文化资源,一些社会组织或文化机构利用网络媒体,采用众包形式参与档案工作,内容涉及资源的数字化、标记或分类,添加个人经历或记忆等。(6)可靠性和真实性。如区块链技术的利用能保证档案不可篡改和伪造,有些人甚至建议用基于区块链的分散式自治档案取代传统档案。(7)档案理论与计算方法的融合:网络基础设施和记录连续性。Esteva Sweat等人使用网络基础设施设计并开发了一个自动记录保存系统,可以无缝地收集、管理、存档和发布在开放式超级计算机中生成的数据。(8)空间和时间分析。电子记录具有空间和时间特征,揭示这些属性可以更好地访问和利用档案资源。Heard和Marciano通过提取、计算空间属性,创建了地理空间索引和图形用户界面,可以关联到数千万条政府记录。
3 .学科理论的创新:跨学科知识体系的构建
计算档案学是大数据技术催生的一门新兴交叉学科,主要综合档案学、信息科学、计算机科学等领域的理论和研究方法。从三个学科的单独属性来看:档案学主要包括记录的创建、保存和使用,其核心问题是确保档案记录的完整性、长久性、真实性和可用性;信息科学关注资源的有效收集、存储、检索和使用,以人类和社会需求为出发点,提供信息检索技术和社会网络系统;计算机科学主要包括对信息转换过程的设计、分析、实施和应用,它关注的是算法、系统和网络的可行性、结构、自动化以及高效性。从研究对象看,档案记录的保存是为了更好的发现知识,为人类研究做贡献,已属于信息科学范畴。从核心层面看,信息已然是计算科学研究的重要载体。计算机科学专家不会从档案角度关注记录,而是从信息科学的角度获取最佳计算实践。因此,信息科学、计算科学是计算档案学的基本要素,信息专家、计算机专家将在计算档案研究团队中发挥核心驱动作用。
通过跨学科深度合作,计算档案学以多学科知识结构为基础,立足档案资源,创新性地形成其特有的知识理论体系。Nathaniel Payne将其描述为以档案、信息和计算机科学为基础,涉及计算方法和资源的应用以及档案大数据的长期保存、分析,注重多学科知识的双向交流,应用人机交互技术,真正使档案成为促进信息流动的工具,而非束缚信息的牢笼。此外,计算档案学也强调合作人员之间的无缝合作,要求档案、信息和计算机专家都成为计算档案学专家,发挥跨学科特有的创造力和发展潜力。