一 电子档案的产生
近代科技发展史表明,每次重大科学的发现、技术的创新,都使人们对客观世界的认识产生飞跃;每次技术革命,都使人们改造自然的能力和推动社会发展的力量,提高到一个新水平。显示生活的事例无可争辩地证实科技是第一生产力和社会进步的强大驱动力。
从1946年第一台电子计算机诞生至现在,只有短短的50多年,电子计算机技术以空前的速度急剧发展,无论硬件还是软件,都产生多次质的飞跃。在电子计算机技术飞速发展的同时,电子计算机在政治、军事、经济、文化以及人类生活各个领域的应用也愈加普遍,成为现代社会和现代生活不可缺少的工具。
由于办公自动化的进一步发展和深化,特别是电子计算机和通信技术相结合形成了信息技术产业。过去用纸墨、照像等形成和传递的政府机关公文以及图书、图纸、图形、图像、文献资料、商业信息等,都可以用电子计算机进行,由此而产生了电子公文、电子图书、电子图形图像、电子文献资料等,这些都是属于电子文件。具有档案保存价值的电子文件,必须要归档保护。电子文件归档后即形成电子档案。电子档案当然要有档案保管部门保存。
电子档案管理应遵循档案收集、整理、保管、利用、鉴定、统计等管理原则。但它与纸质等载体档案确有很大区别,它的记录形式是数字化系列。任何电子档案,当使用技术和设备将信息内容记录在磁性材料或光盘等载体后,就永远离不开这种技术和设备,它不能离开这种生成环境和设备而单独存在,人们只有采用这种记录档案信息内容的技术和设备,进行逆处理还原、输出,才能识别它的信息内容。电子档案的长期保存,却是非常困难,需要有不断更新的技术和设备作保障。电子文件归档及电子档案管理需要有技术和设备,电子档案的生命周期是由电子档案内容而定,而保证电子档案生命周期的存在,取决于载体的寿命、电子计算机软硬件的生存周期和载体所载档案与电子计算机软硬件平台的一致性。所以说,电子档案管理是一项极其复杂的技术工程,从这个意义上说,也可把电子档案管理称为“电子档案技术工程”。
档案种类较多,分类也较复杂,但就记录形式不外乎以文字、影像记录和数字记录两大类型,而且这两大类型还会因长期保存和开发利用的需要而相互转换。我们只有认清电子档案与纸质等载体档案的异同,才能做到对电子档案管理提出正确的要求,既坚持档案管理基本原则,又不妨碍电子档案根据自身的特殊性,创建自己的管理方法、技术和标准。只有如此,才能达到既强调电子文件及电子档案管理的必要性,又不会放松对纸质等载体档案的管理,才有可能真正做到在电子档案大量涌现时,我们既重视电子档案,又能加强纸质等载体档案的管理,充分开发各类档案信息资源为社会服务,使档案事业在电子时代继续得到全面发展。
二 电子文件的特性
电子文件某些特性与纸质文件有很大区别。要管理好电子文件,就必须了解其特性。综合国内外对此问题的研究,电子文件的主要特性可概括为:
1、电子文件是数字化信息技术的产物。电子文件是在计算机中产生和处理,其信息形态是数字化的。人们 在计算机屏幕上看到由文字、图形等构成的电子文件形态只不过是电子文件的某种输出形式而已。而在计算机内部,无论是传输还是存储等处理,电子文件均是以数字编码的形式存在。
计算机录入汉字的方法有多种,如键盘录入法、扫描录入法、语音录入法、手写录入法等。用键盘录入汉字、首先是在输入时对汉字进行计算机的外码转换。可以用汉语拼音、五笔字型等外码录入汉字。计算机接收了其个汉字外码之后,接着就把外码代表的汉字用计算机内码记录下来。计算机内码是以16位二进制的数字表示的,也就是两个字节长。计算机内进行文件信息的存储、传输等处理就是对这些内码的处理。只有当需要将文件输出时,才将其汉字内码所对应的字形点阵。也就是字模,以及众多字模按格式组成文章在屏幕或打印机上输出。
在计算机多媒体技术的支持下,电子文件还可以包括声音、影像等多种形式。不过这些信息形态就计算机内部处理来说,也都是二进制的数字编码而已,只是在输入和输出时,才有其各自的特殊形式。
电子文件从一个载体复制到另一个载体,或者从一台计算机传递到另一台计算机,实质上是在计算机内进行数字信号的传输处理。只要技术方法得当,就可以完全恢复到与原信号一样。例如,在光盘被复制时,如采取较完善的技术措施,所出现的误码率能够做到不超过10的负14次方,也就是说相当于传递200000份《人民日报》的文字信息量,才可能有一个汉字出错。所以可以做到复制后得到的电子文件与原来的电子文件无任何区别。
2、电子文件对设备的依赖性。电子文件的形成和各种处理均是在计算机等设备的支持下完成的,离开计算机等设备,电子文件既看不见也摸不着。其对设备依赖性主要体现在:一是数字编码,二是硬件,三是软件,四是技术设备更新,五是加密。例如电子文件对其他设备环境的不兼容性,使其只能在某种设备上处理。不同软、硬件环境形成的电子文件载体,有时难以互换。
电子文件的运作、管理是建立在一套标准化体系之上的。其严格程度和对系统性的要求,均远远超过纸质文件的标准化体系。例如,其制作生成要有代码标准,其存储要有机读载体的格式标准、信息压缩存储的算法标准,其传输要有网络通讯协议标准,其查找要有检索语言标准等。标准化是极为重要的基础工作,建立和熟悉电子文件的标准化体系,是保证电子文件妥善归档的重要前提。
在网络环境下,人们对信息的处理标准化问题解决得好一些,但对记录载体的交换问题仍然很多。尤其是在格式、字符集、压缩方式等方面产生不兼容的问题。出于安全保密上的考虑还常常通过特殊的软、硬件设备人为地进行复杂而独特的编码加密或信息拆分处理,使需要保密的电子文件只能在特定的环境下被读取。计算机更新换代很快,常常只能隔代兼容,对于需要长期归档保存的电子文件来说,设备依赖性造成的问题会更加严重。一般的计算机设备8年左右就会被更新,而耐久性光盘载体可以保存更长时间。若干年之后,很可能出现保管完好的电子文件载体找不到读取设备的问题。设备老化和频繁更新,给电子文件长久保存带来的问题,远比文件载体本身的寿命长短更为严重。
3、电子文件载体的非直读性。
电子文件的非直读性体现在很多方面。一是数字编码记录于载体上肉眼无法分辨,何况磁载体上的“磁畴”极性是物质内部的物理性质,根本不可能看到。此外载体上的信息记录密度极大,例如一张容量可达600MB一4000MB的光盘,刻写激光斑点的直径小于百万分之一毫米,可存35万张打印纸上的文字信息,或10万页图形信息。即使在高倍显微镜下可以看见光盘上的记录痕迹,也不可能读懂那些小点表示什么。另外,载体上的数字信息往往进行了压缩编码、加密等处理,即使有设备,如果不解压解密也不能读取其内容。以上种种因素均决定了电子文件载体的非直读性。
4、电子文件物理结构与逻辑结构的复杂性及对元数据和背景信息的依赖性。
文件的物理结构是指其信息存诸于载体上的位置及分布情况,例如文件的正文、图形、批示、附件等部分各自在载体上的存诸位置。文件的逻辑结构是指信息自身的结构,例如文件中的文字排列、章节构成、各页的先后顺序、插图、标号等。
纸质文件的信息物理结构与逻辑结构是一致的,而且是直观的。例如,排错了文件页码,就不仅破坏文件信息物理结构也同时破坏其逻辑结构。电子文件的信息物理结构和逻辑结构往往是不一致的。同一份电子文件中的正文、图形、批示、附件等可以不在载体上连续存放,甚至可以存放在不同的载体上,而不影响其正常地显示输出。在电子文件信息的处理过程中,其物理结构经常发生变化,而其逻辑结构却可以保持不变。电子文件的逻辑结构通常也需要专门的信息予以描述,当然这些信息可能是隐含的,无特殊需要而不显示出来。正是由于这种原因,电子文件的物理结构和逻辑结构之间关系是很复杂的。在电子文件归档时,如何保持其物理结构和逻辑结构的复杂关系,是保证电子文件不被破坏而必须注意的关键问题之一。
元数据是关于数据的数据。例如文件上、下文的关系和结构就是元数据。对于纸质文件来说,元数据往往直接体现在其形态上,如一份印好的文件,纸上的文字、图形排列及格式等。电子文件的这种元数据必须特意附在文件信息中,否则将无法恢复电子文件的原貌。此外,纸质文阵由于在传递和处理过程中离不开行政部门的实际往来和人工办理各种手续,则其生成和运作的背景信息也就自然地记录在文件上了。电子文件的运作往往是在网络上进于的,操作者互不见面,体现行政背景关系的信息可能存放在其他地方。如不特意提供或补充这些元数据或背景信息,就可能给电子文件的运作和归档带来问题。
5、电子文件信息与载体的相分离性。
电子文件的存放位置不是固定的,而是可以变化的,甚至可以从一个载体转换到另一个载体,其内容信息却不发生任何变化。同样,还可以通过网络传给远方的一个或多个接收者。在一些对保密有特殊要求的网络中,还采取把电子文件分解后分别通过不同的途径传递,存放在不同地点的不同设备上,只是在需要时才临时把文件装配起来。这些情况,不仅造成电子文件与载体的分离性,也使长期处于共享计算机网络资源环境的使用者淡漠了对电子文件存储于哪台计算机、哪个载体以及什么位置的关心。这个特征给电子文冲的保管带来许多新的问题,处理不好,会直接影响其真实性、完整性和可靠性。
文字、图形、声音、影像等多媒体信息均可以单独或相互搭配构成电子文件的内容,这就造成了电子文件的多媒体集成性,使得电子文件的信息形态及其组成要比纸质文件等复杂得多。例如不同的载体往往适合存储不同种类媒体的信息,就会造成同一份电子文件中的文、图、声、像在存储时的载体分离现象。如果脱机保管,就可能造成混乱,甚至破坏电子文件的完整性。
(张魁 转载自 http://daj.huojia.gov.cn/dazs/szhd/141/)