[發(fā)明專利]一種海量非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)存儲方法有效
| 申請?zhí)枺?/td> | 201510088785.7 | 申請日: | 2015-02-26 |
| 公開(公告)號: | CN104731864B | 公開(公告)日: | 2018-05-29 |
| 發(fā)明(設(shè)計)人: | 王琦;劉陽;楊鵬;陳訓(xùn)遜;王樹鵬;王勇;王振宇 | 申請(專利權(quán))人: | 國家計算機網(wǎng)絡(luò)與信息安全管理中心;中國科學(xué)院信息工程研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11200 | 代理人: | 司立彬 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 散列 數(shù)據(jù)存儲 記錄 非結(jié)構(gòu)化數(shù)據(jù) 存儲 關(guān)鍵信息 分區(qū) 記錄數(shù) 數(shù)據(jù)檢索效率 非結(jié)構(gòu)化 記錄存儲 唯一表示 集群 寫入 創(chuàng)建 統(tǒng)計 | ||
1.一種海量非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)存儲方法,其步驟為:
1)設(shè)定一時間間隔T,將數(shù)據(jù)存儲集群劃分為多個分區(qū),用于將同一時間間隔T內(nèi)的記錄存儲到同一分區(qū)內(nèi);同時將每一分區(qū)劃分為n個散列區(qū);
2)對于每條非結(jié)構(gòu)化記錄,提取其產(chǎn)生的時間t以及一個或多個唯一表示該記錄的關(guān)鍵信息key;
3)根據(jù)每條記錄的時間t,確定其要存儲到的分區(qū),然后根據(jù)該記錄的關(guān)鍵信息key計算該記錄在該分區(qū)中對應(yīng)的散列區(qū)值;
4)根據(jù)步驟3)的計算結(jié)果,將屬于同一個時間間隔且散列區(qū)值相同的記錄寫入同一個文件F中并統(tǒng)計該文件F的記錄數(shù),如果記錄數(shù)大于設(shè)定閾值K,則在當(dāng)前散列區(qū)中創(chuàng)建另一文件進行存儲;
其中,所述散列區(qū)信息的表示方法為:n-n’,n’為散列區(qū)值;每一分區(qū)的散列區(qū)數(shù)量值n可調(diào),當(dāng)n值調(diào)整后,n-n’中的散列區(qū)值n’保持不變。
2.如權(quán)利要求1所述的方法,其特征在于,對于每一文件,提取其元數(shù)據(jù)信息并保存到元數(shù)據(jù)文件中;其中,所述元數(shù)據(jù)信息包括:文件所在的存儲節(jié)點信息、文件所在的盤位信息、文件所在的分區(qū)信息和散列區(qū)信息、文件中的記錄數(shù)信息、文件的創(chuàng)建時間。
3.如權(quán)利要求1或2所述的方法,其特征在于,根據(jù)公式abs(hash(key))%n=n’計算所述散列區(qū)值n;即取所述關(guān)鍵信息key的哈希值的絕對值,再對絕對值取模操作,得到的余數(shù)作為n'。
4.如權(quán)利要求1或2所述的方法,其特征在于,所述關(guān)鍵信息key為記錄所在源文件的文件名。
5.如權(quán)利要求1或2所述的方法,其特征在于,對每一文件創(chuàng)建一個或多個索引,然后將所建索引文件所在位置標(biāo)記到該文件上。
6.如權(quán)利要求5所述的方法,其特征在于,設(shè)定一熱點時間范圍,對于屬于該熱點時間范圍內(nèi)的文件進行緩存,對于該熱點時間范圍之前的文件只緩存對應(yīng)的索引文件。
7.如權(quán)利要求2所述的方法,其特征在于,當(dāng)輸入檢索請求進行查詢時,檢索引擎根據(jù)檢索請求中的時間間隔、散列區(qū)信息從所述元數(shù)據(jù)文件中查詢符合輸入信息的元數(shù)據(jù)信息,然后將屬于同一個存儲節(jié)點的文件發(fā)到對應(yīng)的存儲節(jié)點上并行執(zhí)行檢索請求,返回命中的記錄。
8.如權(quán)利要求1或2所述的方法,其特征在于,每一所述文件具有一生命周期。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國家計算機網(wǎng)絡(luò)與信息安全管理中心;中國科學(xué)院信息工程研究所,未經(jīng)國家計算機網(wǎng)絡(luò)與信息安全管理中心;中國科學(xué)院信息工程研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510088785.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:攔截廣告的方法及裝置
- 下一篇:數(shù)據(jù)處理方法及裝置
- 數(shù)據(jù)存儲
- 數(shù)據(jù)存儲設(shè)備和數(shù)據(jù)存儲方法
- 數(shù)據(jù)存儲設(shè)備及其數(shù)據(jù)存儲方法
- 數(shù)據(jù)存儲方法和數(shù)據(jù)存儲結(jié)構(gòu)
- 數(shù)據(jù)存儲系統(tǒng)、數(shù)據(jù)存儲方法以及數(shù)據(jù)存儲程序
- 數(shù)據(jù)存儲設(shè)備及其數(shù)據(jù)存儲方法
- 數(shù)據(jù)存儲方法、數(shù)據(jù)存儲裝置及數(shù)據(jù)存儲系統(tǒng)
- 數(shù)據(jù)存儲方法、數(shù)據(jù)存儲裝置和數(shù)據(jù)存儲系統(tǒng)
- 數(shù)據(jù)存儲方法和數(shù)據(jù)存儲引擎
- 數(shù)據(jù)存儲設(shè)備和數(shù)據(jù)存儲方法
- 一種基于深度學(xué)習(xí)的非結(jié)構(gòu)化數(shù)據(jù)處理方法
- 一種電力行業(yè)非結(jié)構(gòu)化元數(shù)據(jù)關(guān)聯(lián)方法及系統(tǒng)
- 基于AI的非結(jié)構(gòu)化數(shù)據(jù)管理方法及裝置
- 一種將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的方法及裝置
- 非結(jié)構(gòu)化數(shù)據(jù)處理方法和非結(jié)構(gòu)化數(shù)據(jù)處理系統(tǒng)
- 業(yè)務(wù)項目的風(fēng)險識別方法及裝置
- 一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)
- 非結(jié)構(gòu)化數(shù)據(jù)存儲方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的存儲方法、裝置、設(shè)備及介質(zhì)
- 一種融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合搜索方法





