技术专题讨论 - 深圳市瑞琪世纪软件技术有限公司

声像档案数字化中的数据存储格式

在声像档案的管理中，主要是对照片、视频、音频的档案对象进行管理，为了便于档案的保存和再利用，各档案管理部门开始利用现在强大的多媒体技术和计算机技术，将声像档案数字化，但不同的数字化标准和文件存储格式，数字化的档案品质差别非常大，可以针对档案不同的使用目的，采用不同的数字化方案。

声像档案数字化的目的是为了长期保存和再利用，为了长期保存，数字化后的档案必须接近真实地反映原档案的全部特征，这样数字化后的档案数据文件就特别的大，不便于档案数据的检索，因此，我们在声像档案数字化时，每种档案生成两种数字化文件，一种用于长期保存，一种用于检索。用于检索的数据文件非常小，以至于在低带宽的互联网上检索时，也可以保障快速的数据响应，用户检索到的声像档案，可以直接通过互联网观看视频画面、预听声音，当需要原始档案数据文件时，通过授权，可以下载到本机使用。

一种档案生成两种数字化文件，并不需要数字化两次，声像档案在数字化时，可以用较高的采样率直接生成存档级的数字化文件，在此文件的基础上，通过转换程序，可以任意生成低采样率的检索级的数据文件。

1．照片数字化的存储格式及参数设置

照片数字化后的图像存储格式很多，对于存档级的照片，建议采用TIFF存储格式，但目前很多数码相机拍摄的照片直接存储的是JPEG格式，也可以直接用来存档。TIFF图像是一种非常灵活的存储格式，可以存储彩色、灰度、二值图像。对于彩色图像，支持RGB和CMYK两种模式，RGB（红绿蓝）大家都比较熟习，CMYK（青、洋红、黄色、黑）是专门用于印刷的存储格式，在印刷业大量被采用。在存储的数据组织方面，支持非压缩存储、LZW无损压缩存储；对二值图像还支持CCITT Group4无损压缩存储。

在扫描图像文件时，只要扫描的分辨率足够高，就可以近乎完全地反映原始照片。但受到扫描硬件分辨率的限制、存储空间的限制等一些硬件的制约，我们只能选择一个合适的扫描分辨率，下面给出几个扫描分辨率和存储空间的对应关系。

TIFF RGB 非压缩格式：

在有足够存储空间的情况下，建议用1200DPI扫描存储照片。

预览照片的生成：

原始存档图像生成后，通过软件，就可以自动提取用于预览的图像。这里又涉及到预览图像用什么格式存储、采用多高的分辨率的问题。预览用的图像以能在电脑上看清图像的内容为原则，分辨率越低越好，通过实验得知，采用72DPI的分辨率较好，此分辨率既可以看清图像的全貌，又可以保障存储空间最小。在存储格式上，采用JPEG压缩存储，以节约存储空间。

采用72DPI，JPEG中等压缩品质存储，不同尺寸的照片的存储空间如下表：

2．视频数字化的存储格式及参数设置

用于存储视频图像的数据格式很多，有些适合于档案存储，有些适合于网络在线播放。对于存档级的视频图像，建议采用MPEG-2的压缩算法进行压缩，MPEG（Moving Picture Experts Group）是国际上著名的数字视频和音频压缩的标准化组织，其系列标准有MPEG-1、MPEG-2、MPEG-4、MPEG-7等，这些标准都得到了不同软硬件厂商广泛的支持，不同的标准适用于不同的应用领域，并不是说标准后序的数字越大越好。如MPEG-1是VCD的压缩标准，它的视频压缩质量只是达到家用录像机的品质；MPEG-2是DVD和数字电视传输的压缩标准；MPEG-4是视频流媒体的压缩标准，它的压缩效率更高，可以在网络低带宽的情况下，保障连续的视频数据播放，被目前很多的VOD（视频点播）所采用；MPEG-7是多媒体内容描述接口，提供基于内容的视频检索机制，可以直接检索某个视频镜头。

用MPEG-2压缩存储存档级的视频档案，视频采样数据流采用10Mbps，音频采样数据流采用384Kbps，48KHz，立体声，视频画面分辨率720×576，这样1小时的视频画面，经MPEG-2压缩后，约占用4.2GB的存储空间，如果需要备份，正好可以备份到一张DVD盘上。压缩后的MPEG-2数据文件，可直接用于播放、编辑等不同的用途。

预览视频数据流的生成：

用于预览的视频数据流必须是流媒体的格式，以满足网络在线播放的需要。目前常用的流媒体格式，除了上面提到的MPEG-4外，还有微软公司的ASF(Advanced Streaming Format)、WMV(Windows Media Video)，RealNetworks公司的RM/RAM/RMVB等视频数据格式，这些视频数据格式在网络上都特别流行，各有长处，支持的软件和硬件也特别多。MPEG-4对运动图像的还原更出色些，WMV对色彩的还原要好些，RM/RAM/RMV的压缩品质更高，在很低的网络带宽情况下，仍然可以获得好的播放效果。

由于微软在软件业的统治地位，其相关的制作和播放软件更容易获得，建议预览用的视频数据流采用WMV的压缩存储格式，用相关的转换软件可以直接从存档级的视频数据文件中生成，在能看清内容的情况下，预览用的数据文件越小越好。

WMV的压缩参数设置：视频数据压缩码率采用256Kbps，视频画面分辨率320×240，这样1小时的视频画面，用WMV格式存储，约占用110MB的存储空间。

3．音频数字化的存储格式及参数设置

目前用于音频数据存储的格式也很多，如WAV、MIDI、MP3、Ogg、杜比AC-3等。对于存档级的音频文件，还是采用WAV格式存储，WAV格式是微软公司开发的波形存储文件，由于微软公司在软件业的统治地位，该格式非常普及和流行，它是非压缩的，在采样率足够高的情况下，可以精确地记录声音。

在记录WAV文件时，一般选择双声道立体声，16位采样（每一个采样点左右声道各占16位），采样率是一个很重要的参数，一般选择48Khz，可以达到广播级的效果，也可以采用44.1Khz，可以达到CD的播放品质。此参数设置的WAV文件，记录一小时的音频数据约占用600MB的存储空间。

预览音频数据流的生成：

类似视频数据流的处理，音频用于预览的数据流也必须是流媒体的格式，目前常用的音频流媒体格式主要有MP3、WMA、RM/RAM/RMVB等格式。MP3实际上是前面提到的MPEG的第三声音压缩层（Audio Layer-3）对声音的压缩算法，在网络上非常流行。WMA（Windows Media Audio）是微软公司对音频进行压缩的流媒体格式，RM/RAM/RMVB前面已经提到过。

由于MP3的大量流行和其标准的开放性，预览用的音频数据流建议用MP3格式存储，在提取MP3文件时，数据流码率设置为56Kbps，记录一小时的音频数据约占用25MB的存储空间。