古籍文獻全文數字化
時間:2009-8-11 16:27:13 人氣指數: 【 大 中 小 】
北京天潤智力專業從事紙質文獻的數字化加工,將文獻資源制作成符合國際標準的數字資源,進行深度數據加工和加密處理,制作成全文檢索光盤供用戶使用,非常適合于圖書館、出版社、期刊雜志、各類企事業單位以及個人用戶。
古籍全文數據庫對古籍資源的全文進行數字化處理,為讀者提供全文閱讀、全文檢索或智能分析服務。根據全文數字化的技術處理情況,可以將其分為圖像版、文字版、圖文版。對圖像的掃描處理我們一般采用JPEG、TIFF格式,經過OCR識別、人工校對后生成可以全文檢索的雙層PDF文件,既便于用戶閱讀、檢索,又便于數據共享和傳輸。
1、手工錄入:
將古籍的全文以鍵盤輸入計算機,使之數字化。經過標引及系統處理,凡錄入的文字都可以檢索、統計,貯存空間小,檢索速度快。同時,為了保證文字的準確率,我們開發了古籍自動校勘系統,對錄入后的文本進行自動校對,并采用人工輔助校對的方式,經過3~5個校次,文字錯誤率控制在萬分之一以內,達到出版水平。
2、圖像掃描:
保存古籍文獻的電子影像,用掃描儀等將古籍文獻的文字(包括圖表)以圖像形式進行存儲。存儲為國際通用的PDF格式,版式保留完整,文字不會產生錯誤,且能保證文獻的原始狀態,同時圖像文件經過技術處理后,能以較小的貯存空間存儲。
3、雙層PDF圖文格式:
用掃描方式制成TIFF圖像,然后利用OCR技術將圖像形式全部識別為可檢索的漢字,并將文字和圖像進行對應,制作成圖像在上、文字在下的雙層PDF格式文件。既便于用戶快速準確地查找到所需內容,又能使用戶古籍的原始面貌。雙層PDF特別適合于古籍數字化,異寫、通假、避諱等造成的眾多漢字無法完全識別,用戶通過圖像即可對照。
古籍書目數據庫以書目內容為數字化對象,對古籍的元數據描述,內容包括書名、責任者、版本、卷數、刻印年代、藏地、版式等情況,形成機讀目錄格式,向用戶提供結果查詢。