[發明專利]海量數字資源的免路徑維護存儲方法無效
| 申請號: | 200810171710.5 | 申請日: | 2008-10-23 |
| 公開(公告)號: | CN101727453A | 公開(公告)日: | 2010-06-09 |
| 發明(設計)人: | 孫一鋼;王安生;朱先忠 | 申請(專利權)人: | 國家圖書館;北京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 海量 數字 資源 路徑 維護 存儲 方法 | ||
技術領域
本發明涉及海量數字資源的存儲(存取)方法,具體地說,涉及一種海量數字資源的免路徑維護存儲方法。本發明可直接用于海量數字資源的存儲與維護,可用于數字圖書館和數字檔案館中的數字資源的加工,永久保存以及轉儲與發布。
背景技術
數字資源的存儲方法是指對資源本身的數據文件的存取以及對存取路徑的維護。通常情況下,是把某一類數字資源的數據文件存放在一個海量的數據空間中,同時采用相應的軟件管理系統來維護每個數字資源的存放路徑,這樣的管理系統要管理數以萬計的數字資源,這些數字資源往往要占用以TB計的存儲空間,這給文件路徑的維護帶來了困難,也降低了文件的存取效率。目前,數字資源的存取方法主要采取以下兩種方式:
1.采用數據庫字段存放數字資源:把數據文件存放到數據庫表中的BLOB字段中,同時需要一個字段存放數字資源的標識信息。在存取資源時,通過標識信息的索引可以存取數字資源文件。如果資源數量太大,例如上百萬的條目,會降低數據庫的運行效率;如果單個資源文件比較大,例如上百M字節,也將降低數據庫的運行效率。這是因為一般數據庫管理系統都是為滿足最佳的數據庫表之間的笛卡爾運算效果而設計的,這樣的存儲方案不僅是浪費了存儲服務器的資源,系統運行效率也比較低,并且一旦數據庫出現故障會影響所有的數字資源的存取。
2.采用分類文件目錄方法存放數字資源:對數字資源根據某種分類法(或對某種分類法進行改造)把數字資源存放到不同的與分類方法相關聯的文件目錄中。在這種情況下,存儲管理系統需要維護文件標識和路徑的對應表,系統根據對應表中提供的文件路徑,即可存取數字資源本身。這也是目前比較常用的一種方式,例如國家圖書館的網上讀書系統中,數字化圖書影象的存儲就采用這種方法,國內其它的網上讀書(或網上圖書館)系統,例如超星數字圖書館、書生數字圖書館、中國知網CNKI、萬方數據等也大都采用這一方案。本方案的優點是可對數字對象按類進行手工維護,例如增加一類圖書或刪除一類圖書;缺點是檢索系統必須維護每個對象的路徑,存儲的目錄結構復雜,由于受存取效率的制約(因為目錄的尋址算法往往是線性尋址)還必須對某些目錄結構進行修正,如果某個資源放錯了類別目錄,在數據量太大后(例如上百萬數據條目是很常見的),對某個目錄的修改的風險太大,因為涉及的文件數量太多,以至于這種目錄結構一旦生成就不能修改。
在海量數字資源存儲環境中,會有數以億計的數字資源文件,隨著數字資源的變化,其存放的路徑也會發生變化,對存取路徑的維護關系到數字資源的完整性(數字資源的多個數據文件是完整的)和唯一性(避免數字資源文件的重復存放)。例如一般的省級圖書館會有上億的數字資源,中國國家圖書館將有幾十億的數字資源,為了便于對資源進行資產化管理,需要對資源進行集中化管理,把這些資源存放在幾個資源管理系統中,每個資源管理系統都會有幾千萬以上的數字資源。鑒于上述方法存在的上述問題,開發更好的海量數字資源存儲方法對海量數字資源的管理具有重要的意義。
發明內容
本發明針對傳統的數字資源存儲方法中存在的問題,結合發明人多年來在海量數字資源存儲上的研究和實驗成果,提出了一種不需要維護文件資源存放路徑的數字資源存放方法,在保證對數字資源存儲完整性和唯一性的前提下,采用散列技術推算文件路徑,省掉了背景技術中的兩種方法中必須的文件路徑維護,同時也提高了文件的存取效率。
本發明的思路是:在海量數字資源管理中,每個數字資源都必須具有一個唯一的資源對象標識,例如可以利用資源的URI、DOI、ISBN、ISSN或MARC數據的001字段作為唯一標識符,利用這個唯一標識符散列出一個路徑,數字資源對象的標識符同時追加在這個路徑的末端作為末級目錄,數字資源的數據文件或者是數據文件包就存放在這個文件目錄的路徑中。這樣資源管理系統只要根據數字對象的ID和散列算法即可存取數字資源,而不需要維護有關的對應定位信息。數字資源的存取地址只是數字資源標識符的一個函數。即:<數字資源的存取地址>=函數(數字資源的標識符)
本發明提供的一種海量數字資源的免路徑維護存儲方法,包括下列步驟:
步驟1,為一數字資源分配唯一的標識符;
步驟2,將所述數字資源的標識符的字符串散列到一個無符號的16位或32位整數D;
步驟3,將所述整數D換算為十六進制表示的字符串H;
步驟4,將所述字符串H的值合成一路徑,并將所述數字資源的標識符追加到所述路徑的末端作為末級目錄,以使由不同標識符得到的目錄各不相同;
步驟5,在步驟4得到的目錄中存儲所述數字資源。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家圖書館;北京郵電大學,未經國家圖書館;北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810171710.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電子裝置及其圖片管理方法
- 下一篇:全球語言文字及語音即時互譯系統





