解讀丨歸檔文件整理規(guī)則,電子文件的格式轉(zhuǎn)換
以下內(nèi)容來源 李明華主編《歸檔文件整理規(guī)則解讀》,僅供參考。
格式轉(zhuǎn)換
電子文件格式是指電子文件在計算機等電子設(shè)備中組織和存儲的編碼方式。電子文件的呈現(xiàn)與閱讀,需要依靠與其文件格式相對應(yīng)的閱讀軟件才能實現(xiàn),因而文件格式的有效性、可用性通常與操作系統(tǒng)、應(yīng)用軟件甚至是硬件等密切關(guān)聯(lián)。隨著技術(shù)的發(fā)展,一些格式會逐漸被淘汰,因此,適時進行格式轉(zhuǎn)換、歸檔符合格式要求的電子文件,對于保證電子文件的長期可讀、可解析、可理解具有重要意義。
一、常用電子文件格式
現(xiàn)階段常用的電子文件格式有以下幾種:
1.WPS文件
WPS文件是金山軟件公司辦公套件WPS Office中文字處理軟件的標(biāo)準(zhǔn)文檔格式。WPS文件具有國家自主知識產(chǎn)權(quán),基于XML標(biāo)準(zhǔn),文件安全性較高,其中文排版技術(shù)領(lǐng)先于微軟公司Office辦公套件。而且,WPS文件具有優(yōu)異的跨平臺性能,可以兼容Windows、Linux和安卓等操作系統(tǒng)平臺。
2.DOC(X)文件
DOC文件是微軟公司Office辦公套件文字處理軟件Word的專有默認文件格式,是現(xiàn)階段較為流行的文件格式。與RTF、HTML等文件格式相比,DOC文件可容納更多文字格式、腳本語言等信息,但由于DOC文件屬于封閉格式,因而其兼容性也較低。DOCX是Microsoft Office2007之后版本使用的文件格式。該格式用新的基于XML的壓縮文件格式取代了其目前專有的默認文件格式,文件名擴展名也在傳統(tǒng)文件名擴展名DOC基礎(chǔ)上添加了字母X。
3.RTF文件
RTF(Rich Text Format,多文本格式文件,也稱富文本格式)是由微軟公司開發(fā)的跨平臺文檔格式。RTF格式較為通用,有很好的兼容性,大多數(shù)的文字處理軟件都能讀取和保存RTF文檔。RTF文件通用兼容性應(yīng)該是RTF的優(yōu)點,但也因此帶來一些問題,比如文件一般相對較大、WORD等應(yīng)用軟件特有的格式可能無法正常保存等。
4.OFD文件
OFD(Open Fixed一layout Document,開放版式文件)是按照我國工業(yè)和信息化部組織成立的電子文件存儲和交換格式工作組版式文檔編寫組制訂的版式文檔標(biāo)準(zhǔn),形成的版式文件格式。OFD文件具有國家自主知識產(chǎn)權(quán),基于XML標(biāo)準(zhǔn),易于理解和擴展;支持標(biāo)準(zhǔn)的XML簽名標(biāo)準(zhǔn),支持版式技術(shù)的基本集,體系簡單,易于實現(xiàn);支持與流式兼容的底紋模型;標(biāo)注采用非接觸式,容易提取和訪問等優(yōu)點。OFD文件也存在應(yīng)用描述較少、有待擴充和推廣等缺點。
5.PDF文件
PDF(Portable Document Format,便攜式文檔格式)是一種以二進制方式儲存的格式,是美國Adobe公司于1993年開發(fā)的一種電子文件格式。PDF格式不依賴計算機的硬件配置、操作系統(tǒng)和創(chuàng)建文件時的應(yīng)用程序,能忠實地再現(xiàn)原文,還具有文字檢索和文件審閱等功能,所以在國際上被迅速推廣應(yīng)用。PDF格式已于2005年被國際標(biāo)準(zhǔn)化組織審核通過成為國際標(biāo)準(zhǔn)格式,標(biāo)準(zhǔn)號為ISO 19005一1:2005。
6.PDF/A文件
PDF/A(PDF/Archive)格式是PDF格式的子集。PDF/A標(biāo)準(zhǔn)是美國印刷、出版及紙品加工設(shè)備器材供應(yīng)商協(xié)會(NPES)和美國國際圖像信息管理協(xié)會(AllM)共同發(fā)起的,主要是為了滿足兩方面的需要:
一是為電子歸檔工作尋找一個能夠長期、安全保存文件內(nèi)容的方式;
二是在將來檢索時,能夠保證文件擁有始終如一的顯示效果。
作為電子檔案保存的解決方案,PDF/A標(biāo)準(zhǔn)在成為業(yè)界事實標(biāo)準(zhǔn)后,于2005年5月,又獲國際標(biāo)準(zhǔn)化組織ISO批準(zhǔn),成為一項國際標(biāo)準(zhǔn)。中國作為ISO組織的成員國,也在此過程中對PDF/A標(biāo)準(zhǔn)進行了詳細的評估和審閱,并給出了積極的評價。
7.TIFF文件
TIFF(Tagged Image File Format,標(biāo)記圖像文件格式)是由Aldus公司與微軟公司一起為PostScript打印開發(fā)的一種位圖圖像格式。TIFF支持多種編碼方法,其中包括RGB無壓縮、RLE壓縮、LZW壓縮、ZIP壓縮、CCITT壓縮、JPEG壓縮等。TIFF格式存儲圖像質(zhì)量高,十分有利于文檔原稿的復(fù)制,另外所有繪畫、圖像編輯和頁面排版應(yīng)用程序以及大多數(shù)掃描儀對TIFF格式都提供良好的支持,這使得TIFF格式成為數(shù)字圖像處理的選擇。
二、電子文件的歸檔格式要求
在電子文件整理工作中,每一件電子文件均可能涉及多種類型的文件格式。如電子公文的正文以版式文檔生成,文件格式可能是PDF;附件、定稿可能以流式文檔生成,使用DOC、XLS等文件格式,文件處理單則可能以HTML或TIFF文件格式生成。因此,各單位電子文件收集歸檔時,應(yīng)結(jié)合數(shù)字檔案資源長期保存需求和信息化建設(shè)規(guī)律,按照格式選擇標(biāo)準(zhǔn)確定電子文件的文件格式。
在格式選擇上,一般要求以通用格式形成、收集并歸檔電子文件,或在歸檔前將電子文件轉(zhuǎn)換為通用格式;電子文件歸檔格式應(yīng)具備格式開放、不綁定軟硬件、顯示一致性、可轉(zhuǎn)換、易于利用等性能,能夠支持同級國家檔案館向長期保存格式轉(zhuǎn)換。
可以看出,對于電子文件歸檔格式,關(guān)鍵的就是“通用”和“開放”。
“通用”是指電子文件歸檔格式要能夠在絕大多數(shù)計算機上正常的顯示和瀏覽,要做到這一點,電子文件格式要符合國家標(biāo)準(zhǔn)或者國際通用標(biāo)準(zhǔn)。
“開放”是指電子文件采取公開的格式標(biāo)準(zhǔn),任何人都可以按照公開的文件標(biāo)準(zhǔn)對電子文件進行正常的解析和瀏覽。如果能做到這一點,不管計算機軟硬件水平如何發(fā)展,電子文件都可以自由的進行轉(zhuǎn)換和遷移,只有這樣,才能真正實現(xiàn)電子文件長期保存的目標(biāo)。
2014年,國家檔案局印發(fā)《數(shù)字檔案室建設(shè)指南》,對文書類電子文件的歸檔格式做出規(guī)定:
●電子公文的正本、定稿、公文處理單應(yīng)以O(shè)FD、PDF、PDF/A等版式文檔格式歸檔保存,版式文檔格式應(yīng)符合《版式電子文件長期保存格式需求》(DA/T47一2009),并支持向同級國家綜合檔案館采用的長期保存格式轉(zhuǎn)換。
●集中記錄修改過程的彩色留痕稿以及確有必要保存的重要修改稿可以WPS、RTF、DOC等同級國家綜合檔案館認可的格式歸檔保存。
需要指出的是,紙質(zhì)歸檔文件的數(shù)字化副本也可以使用TIFF、JPEG等文件格式進行歸檔。
三、電子文件格式轉(zhuǎn)換
電子文件格式轉(zhuǎn)換就是指將不符合歸檔要求的電子文件格式轉(zhuǎn)換為符合《數(shù)字檔案室建設(shè)指南》要求的歸檔文件格式。
1.電子文件格式轉(zhuǎn)換的主要目的是為了長期保存和長久可用。在實踐中,電子文件格式轉(zhuǎn)換一般選擇在電子文件歸檔時進行。
實行文檔一體化的單位,可以在辦公自動化系統(tǒng)與檔案系統(tǒng)的歸檔接口中集成文件格式轉(zhuǎn)換服務(wù),對不符合歸檔格式要求的歸檔電子文件自動進行格式轉(zhuǎn)換。未實行文檔一體化的單位,可在電子文件整理歸檔時,由有關(guān)檔案整理人員手工完成不符合歸檔格式要求電子文件的格式轉(zhuǎn)換工作。
無論自動格式轉(zhuǎn)換還是手工格式轉(zhuǎn)換,電子文件格式轉(zhuǎn)換完成后,應(yīng)以計算機自動檢查與人工抽查相結(jié)合的手段,開展文件格式轉(zhuǎn)換質(zhì)量檢查,確保電子文件格式轉(zhuǎn)換后的文檔內(nèi)容和表現(xiàn)形式與轉(zhuǎn)換前保持一致。
2.電子文件格式轉(zhuǎn)換時,應(yīng)符合下列要求:
(1)歸檔時,不符合歸檔文件格式要求的電子文件原則上都應(yīng)進行格式轉(zhuǎn)換;
(2)轉(zhuǎn)換后文檔內(nèi)容和表現(xiàn)形式與轉(zhuǎn)換前沒有明顯區(qū)別;
(3)在條件允許的情況下,格式轉(zhuǎn)換前后的電子文件均應(yīng)歸檔;
(4)電子文件格式轉(zhuǎn)換時,應(yīng)同時去除源文件中的全部加密措施;
(5)有條件的單位,可以采取雙層PDF等技術(shù),使轉(zhuǎn)換后的電子文件同時具備全文檢索能力。