●大數(shù)據(jù)時代,人工智能正在引領(lǐng)各領(lǐng)域、各領(lǐng)域的變革與變革。被稱為“大數(shù)據(jù)之父”的美國軟件開發(fā)商維克托·邁爾·舍恩伯格將互聯(lián)網(wǎng)大數(shù)據(jù)概括為“生活、工作和思維的巨大轉(zhuǎn)變”。2014年3月,大數(shù)據(jù)首次被納入工作報告;2015年8月,國務(wù)院發(fā)布《促進大數(shù)據(jù)發(fā)展行動綱要》;2015年10月,黨的十八屆五中全會正式提出“實施貴陽大數(shù)據(jù)戰(zhàn)略,推動數(shù)據(jù)資源建立開放”,說明中國已經(jīng)將人工智能作為重要資源,提升為建設(shè)戰(zhàn)略。在人工智能浪潮洶涌的時代,檔案機構(gòu)要順應(yīng)時代,推動大數(shù)據(jù)時代檔案管理的產(chǎn)業(yè)轉(zhuǎn)型。
●2019年4月,國家保密局與財稅金融部聯(lián)合組織電子發(fā)票無紙化報賬、核算、備案試點區(qū),確定7家試點企業(yè)。此次試點的成功,將使大量具有原生數(shù)據(jù)狀態(tài)的檔案資源成為未來檔案機構(gòu)的主要監(jiān)管對象。“萬物皆數(shù)”的思維,潛移默化地讓曾經(jīng)作為傳統(tǒng)信息載體存在的事物在未來以數(shù)據(jù)的形式存在,這也預(yù)示著檔案與數(shù)據(jù)的界限在未來會越來越模糊。狹義地說,檔案數(shù)字化管理一般包括傳統(tǒng)電子檔案和電子檔案的數(shù)字化處理和原生數(shù)據(jù)文件的管理。廣義而言,檔案存儲與管理是檔案管理信息化的深化和升級,是未來檔案的發(fā)展方向信息化建設(shè)。
●檔案管理工作正在經(jīng)歷從數(shù)字化到數(shù)字化的轉(zhuǎn)變,這是紙質(zhì)檔案數(shù)字化工作的提升,是檔案利用的深度發(fā)展,是推動檔案服務(wù)升級的新機遇。本文認為,大數(shù)據(jù)環(huán)境下檔案管理數(shù)據(jù)智能化的轉(zhuǎn)型具體表現(xiàn)在以下幾個方面:
人工智能引領(lǐng)未來,引領(lǐng)檔案管理的信息管理思維。
●檔案管理從互聯(lián)網(wǎng)到數(shù)據(jù)驅(qū)動的過程中,管理對象的變化帶來了諸多挑戰(zhàn),創(chuàng)新思維是引領(lǐng)檔案管理數(shù)字化轉(zhuǎn)型的基本要素。要轉(zhuǎn)變檔案存儲和管理的思維,首先要明確檔案與數(shù)據(jù)的關(guān)系。大數(shù)據(jù)時代檔案的定義將進一步鞏固大檔案的概念,拓展檔案的內(nèi)涵和外延。從大數(shù)據(jù)云計算的角度來看,檔案是精華的寶庫數(shù)據(jù)資源,可以將檔案轉(zhuǎn)化為便于計算和處理的數(shù)據(jù),或者將檔案轉(zhuǎn)化為用戶使用的數(shù)據(jù);數(shù)據(jù)也是檔案,在網(wǎng)絡(luò)社會中承載著人類記錄的印記。面對紛繁復(fù)雜的數(shù)據(jù),檔案機構(gòu)應(yīng)強化數(shù)據(jù)歸檔意識,及時改變傳統(tǒng)的檔案思維,建立以數(shù)據(jù)為導(dǎo)向的檔案思維,掌握檔案管理數(shù)據(jù)的智能化發(fā)展方向,能夠積極應(yīng)對檔案管理信息化帶來的一系列挑戰(zhàn)。
●勛伯格認為,大數(shù)據(jù)對人的思維的改造體現(xiàn)在三個方面:開放全信息模型、擁抱雜合、關(guān)注線性關(guān)系。不,這些思想可以映射到大數(shù)據(jù)管理文件的思維轉(zhuǎn)換上。首先,全數(shù)據(jù)決策的建立有利于海量數(shù)字檔案的利用,這是指檔案資源的開發(fā)和利用。目前檔案數(shù)字化全文開發(fā)剛剛步入正軌。2020年6月,上海市檔案館數(shù)字檔案公眾查閱平臺可完成館藏開放檔案93萬余份檔案級目錄的在線查閱,并可申請預(yù)約部分原始檔案。同時還可以觀看3萬多份檔案的數(shù)字化全文和部分史料研究成果2.。但是,數(shù)字化轉(zhuǎn)型的全文查詢僅僅達到了大量文檔的水平,還沒有滲透到檔案的內(nèi)容中,所以還沒有偏離把文檔作為一個整體的管理理念。隨著大數(shù)據(jù)挖掘的不斷創(chuàng)新,海量的數(shù)字檔案將形成龐大的數(shù)字檔案,注冊信息資源的開發(fā)利用將更加多元化。其次,包容性并不意味著文件數(shù)據(jù)的質(zhì)量和內(nèi)容的真實性會降低,而是對于不同格式數(shù)字文件兼容性的提升,雖然復(fù)雜多變的數(shù)字文件對檔案管理工作提出了挑戰(zhàn),但不同格式的數(shù)字文件可以重新定義數(shù)據(jù)管理的思維局限,打開看待整個文件的全新視角。*后,重視正相關(guān)可以作為我們檔案保管和管理的目標。數(shù)字化后,檔案會隨著粒度的減小而變得分散。重視數(shù)字化檔案之間的關(guān)聯(lián)性,就是通過關(guān)聯(lián)來聚合零散的數(shù)字化檔案,而不僅僅是把檔案和整體檔案作為房屋開發(fā),它善于在更細的粒度層次上發(fā)掘更大范圍的檔案利用價值。
●電子發(fā)票是練習(xí)數(shù)字思維的違法案例。電子發(fā)票應(yīng)用類似關(guān)系數(shù)據(jù)庫的文件結(jié)構(gòu)。這種文件只需要定義它的關(guān)鍵數(shù)據(jù)項和打印布局。發(fā)票要素的所有動態(tài)數(shù)據(jù)都以數(shù)據(jù)庫系統(tǒng)的形式集中存儲。用戶購買的發(fā)票數(shù)據(jù)自動讀入數(shù)據(jù)庫,成為數(shù)據(jù)倉庫表文件中的記錄存儲。當(dāng)用戶需要下載、查詢、打印發(fā)票時,可以將該數(shù)據(jù)在相關(guān)數(shù)據(jù)庫表中的記錄轉(zhuǎn)換為PDF或JPG發(fā)票單據(jù)。以京東集團為例。購物體驗結(jié)束后,填寫公司名稱、座機號碼、郵箱地址等電子發(fā)票信息。收到貨物后,申請簽發(fā)電子發(fā)票。經(jīng)過一系列的上傳和審核工作,電子發(fā)票云服務(wù)平臺按照電子發(fā)票機制和要求生成帶有出票人簽名的電子發(fā)票及其格式文件,市場消費者可以自行下載。大數(shù)據(jù)時代,許多紙質(zhì)文檔在產(chǎn)品周期中的生成、存儲、存儲、利用等管理過程,已經(jīng)不適合遵循數(shù)字時代的思維模式,而必須在數(shù)據(jù)驅(qū)動的框架下進行重構(gòu)。
數(shù)據(jù)的廣泛應(yīng)用不僅改變了人們的記錄工具,也革新了人們觀察世界的思維和視角。未來傳統(tǒng)的檔案思維也需要改革,即在重新認識檔案與服務(wù)關(guān)系的基礎(chǔ)上,建立以數(shù)據(jù)為導(dǎo)向的檔案思維,從數(shù)據(jù)整合的角度思考檔案管理。思維先行是檔案機構(gòu)應(yīng)對人工智能挑戰(zhàn)的首要準備。
發(fā)展導(dǎo)向、落后需求和現(xiàn)實瓶頸驅(qū)動著檔案資源數(shù)字化。
●之所以推動檔案管理信息化向大數(shù)據(jù)轉(zhuǎn)型,既是高技術(shù)的迭代,也是信息社會檔案數(shù)據(jù)資源利用的現(xiàn)實瓶頸,即現(xiàn)有的數(shù)字掃描資源無法滿足檔案用戶多樣化的現(xiàn)實需求。我國檔案數(shù)字化工作的興起擺脫了檔案信息遠程指導(dǎo)和利用的困境,但未完成的任務(wù)包括計算機可讀和可理解的數(shù)據(jù)粒度(指數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)表中的精細化和集成化程度)。按照數(shù)據(jù)粒度細化,細化程度越高,粒度越小;精細化程度越低,顆粒度越大)層面的管理和開發(fā),尤其是科研用戶的綜合化、多樣化利用需求仍得到充分滿足。任越等學(xué)者在對黑龍江省市級綜合性國家檔案館調(diào)研論證的基礎(chǔ)上,總結(jié)出登記信息資源保護過程中存在的數(shù)據(jù)驅(qū)動處理深度不足、檔案部門數(shù)據(jù)意識淡薄、數(shù)字檔案相關(guān)性低等矛盾問題。青島市檔案館楊來青主任還結(jié)合信息化工作實踐,提出了檔案內(nèi)容的精細化管理和開發(fā),這是檔案“再管理信息化”戰(zhàn)略的重要環(huán)節(jié)之一。
●需求與現(xiàn)有數(shù)字檔案發(fā)展成果的不匹配,使得檔案發(fā)展轉(zhuǎn)向邏輯層面,使得檔案管理信息化成為大數(shù)據(jù)時代檔案工作的發(fā)展新方向。數(shù)字化的主要目標是檔案內(nèi)容的大數(shù)據(jù)化,即將檔案內(nèi)容的智能碎片化學(xué)習(xí)轉(zhuǎn)化為計算機可讀的可測數(shù)據(jù)形式,通過碎片化學(xué)習(xí)數(shù)據(jù)和數(shù)據(jù)集實現(xiàn)數(shù)據(jù)的緊密構(gòu)建和重組,*終對數(shù)字化檔案進行語義簡單處理和多維數(shù)據(jù)化。具體來說,檔案媒體的數(shù)字化包括:檔案管理水平的遞進、檔案開發(fā)粒度的細化、檔案內(nèi)容語義關(guān)聯(lián)的加強。首先,檔案管理從數(shù)字化技術(shù)向數(shù)字化運營轉(zhuǎn)變帶來的*顯著的變化是檔案管理水平的進步和數(shù)據(jù)管理對象的轉(zhuǎn)變,即從傳統(tǒng)的管理程序向存儲管理轉(zhuǎn)變,數(shù)字化運營后的檔案和原始數(shù)據(jù)形態(tài)電子檔案對以“檔案”為運營單位的傳統(tǒng)人事管理體系提出了挑戰(zhàn)。其次,相對于傳統(tǒng)的檔案信息化和電子檔案的發(fā)展,大數(shù)據(jù)之后,檔案開發(fā)單位會下大力氣將文檔細化到內(nèi)容,將內(nèi)容語義化為數(shù)據(jù),檔案開發(fā)的粒度會不斷細化。散落在海量檔案中的數(shù)字檔案,將通過本體、語義理解等技術(shù),*大限度地實現(xiàn)檔案價值的關(guān)鍵開發(fā)。*后,檔案媒體數(shù)字化的*終目標是利用數(shù)字檔案實現(xiàn)海量檔案之間跨文件、跨文件的相關(guān)內(nèi)容關(guān)聯(lián),有利于用戶檢索,*終提供更好、更完整的檔案服務(wù)。數(shù)字檔案經(jīng)過碎片化學(xué)習(xí)后,需要借助語義處理等技術(shù),基于語義對零散的數(shù)字檔案進行分類合并,以突出數(shù)字檔案之間的語義負相關(guān),進而優(yōu)化檔案檢索,發(fā)現(xiàn)檔案之間的深層關(guān)系。
●基于內(nèi)容的檔案數(shù)據(jù)可以視為檔案存儲和管理轉(zhuǎn)型的基本內(nèi)容。它既是檔案機構(gòu)基于大數(shù)據(jù)時代實踐做出的環(huán)境適應(yīng)性戰(zhàn)略轉(zhuǎn)型,也是檔案用戶需求信息爆炸與檔案機構(gòu)工作瓶頸突破實現(xiàn)自我升級的契合點。目前,實現(xiàn)檔案媒體數(shù)字化的典型案例是各個國家和地區(qū)的數(shù)字人文工程。在數(shù)據(jù)智能的基礎(chǔ)上,對檔案內(nèi)容文本進行分類、聚合和關(guān)聯(lián),利用GIS、VR、AR等技術(shù)對檔案內(nèi)容進行展示。比如1993年,美國俄亥俄大學(xué)數(shù)字歷史研究中心在美國推出的美國南北戰(zhàn)爭時期以地痞檔案為主題的“影谷計劃”,記錄并展示了南北戰(zhàn)爭時期許多平民的信件、日記、聲明、公告、報紙、演講等原始資料。“影谷工程”網(wǎng)站展示的主題都是檔案視頻資源。
面向客戶、數(shù)據(jù)授權(quán)、多服務(wù)示例升級文件
檔案信息管理*終將受益于檔案用戶。基于數(shù)據(jù)的檔案資源、數(shù)據(jù)技術(shù)、建模技術(shù)等多種因素的碰撞,將使未來的檔案消費體驗與傳統(tǒng)檔案還原服務(wù)完全不同,數(shù)據(jù)是提升檔案服務(wù)的核心因素。
●首先,支持數(shù)據(jù)的文件服務(wù)很有技巧。基于數(shù)據(jù)的檔案資源為檔案的技術(shù)服務(wù)提供了源源不斷的原材料和堅實的大數(shù)據(jù)體系,數(shù)據(jù)管理數(shù)據(jù)驅(qū)動是推動這一發(fā)展的強大動力。近兩年,我國學(xué)者開始嘗試從操作層面探索文物等原始檔案的數(shù)據(jù)驅(qū)動工作。比如王開隊借鑒CDBD和CHGIS技術(shù),驅(qū)動徽州族譜中的人和地理的數(shù)據(jù)。文件服務(wù)技術(shù)化的實現(xiàn)需要借助語義、本體、知識地圖等技術(shù)對文件內(nèi)容進行語義拆分、清洗、合并和可視化,*終整體呈現(xiàn)豐富全面的文件知識成果。隨著技術(shù)的不斷發(fā)展,檔案資源的數(shù)字化水平也將不斷提高。在滿足檔案用戶日常參考需求的同時,檔案服務(wù)將由數(shù)據(jù)驅(qū)動成為精英。
●二是基于數(shù)據(jù),檔案機構(gòu)全方位合作。在這個“數(shù)據(jù)為王”的時代,數(shù)據(jù)是組織之間相互競爭的戰(zhàn)略資源,但也是不同管理組織之間全方位合作的基礎(chǔ)。2017年,《文化部“十三五”時期文化科技創(chuàng)新規(guī)劃》提出:“依托數(shù)字歷史資源數(shù)據(jù)項倉庫建設(shè),收集數(shù)據(jù),組織關(guān)聯(lián)。研究用戶數(shù)據(jù)采集標準,推動全國學(xué)校圖書館、大型博物館、縣級文化館、展覽等用戶數(shù)據(jù)采集共享。引導(dǎo)社會共同開發(fā)利用人力資源數(shù)據(jù),選擇優(yōu)質(zhì)數(shù)據(jù)資源與人力資源數(shù)據(jù)相銜接”。檔案機構(gòu)保存著大量的文化旅游資源。然而,該計劃并未明確提及檔案機構(gòu)應(yīng)如何參與。目前,我國在政府層面已經(jīng)有了檔案機構(gòu)跨方向合作的業(yè)務(wù)計劃,這說明我國檔案機構(gòu)跨合作領(lǐng)域還有很大的發(fā)展空間。2020年新規(guī)《中華人民共和國檔案法》提出:“國家推進檔案數(shù)據(jù)共享服務(wù)體系建設(shè),推進檔案數(shù)字資源跨區(qū)域、跨部門信息利用”。利用數(shù)字檔案館推動檔案機構(gòu)跨機構(gòu)、跨旅游等領(lǐng)域,并通過不同領(lǐng)域海量數(shù)據(jù)的關(guān)聯(lián)和聚合,積極結(jié)合國情、檔案、展覽等合作聯(lián)盟的銷售經(jīng)驗,穩(wěn)步推進與學(xué)校圖書館、城市博物館、美術(shù)館、城市群美術(shù)館等歷史遺產(chǎn)機構(gòu)的合作,不斷拓展檔案數(shù)據(jù)資源數(shù)據(jù)庫,是檔案機構(gòu)實現(xiàn)檔案資源開發(fā)的必由之路信息化建設(shè)。不可避免的是,包括數(shù)字人文項目在內(nèi)的檔案館、檔案館、博客等組織間信息共享的合作框架,在新技術(shù)的支持下,將為檔案用戶帶來更加立體的使用體驗。
●第三,文件用戶收集數(shù)據(jù)并使用優(yōu)化的文件服務(wù)。除了類似的檔案媒體數(shù)字化之外,過去沒有注意到的檔案用戶數(shù)據(jù)的獲取和利用,也是檔案管理信息化的表現(xiàn)之一。在隱私和安全的前提下,使用用戶生成的人工智能可以滿足更加個性化和精準化的歸檔服務(wù)。圖書館學(xué)界有學(xué)者提出,要利用個人用戶形成的“小數(shù)據(jù)”,實現(xiàn)各類檔案資源的綜合服務(wù)。一般來說,是利用個人用戶形成的用戶習(xí)慣、資源供需等數(shù)據(jù)勾勒出“用戶行為”,從而實現(xiàn)對檔案用戶的針對性服務(wù),與開發(fā)用戶積累的大數(shù)據(jù)并不矛盾。個人檔案用戶形成的“小數(shù)據(jù)”,是形成檔案用戶云計算的大數(shù)據(jù)系統(tǒng)。海量的檔案用戶數(shù)據(jù)有利于大多數(shù)用戶掌握檔案利用的整體情況,有利于檔案資源的高利用率,有利于檔案用戶滿意度的提升和反饋。檔案用戶數(shù)據(jù)的利用可以與“小數(shù)據(jù)”和“大數(shù)據(jù)云計算”緊密結(jié)合,在大體掌握檔案用戶資源的前提下,進一步滿足個性化服務(wù)。



