[發明專利]一種大量數據情況下的可靠即時檢索方法及系統有效
| 申請號: | 201410228015.3 | 申請日: | 2014-05-27 |
| 公開(公告)號: | CN103970902B | 公開(公告)日: | 2017-05-24 |
| 發明(設計)人: | 張可;柴毅;付雪青;馬號;劉建環 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京眾合誠成知識產權代理有限公司11246 | 代理人: | 龔燮英 |
| 地址: | 400044 *** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 大量 數據 情況 可靠 即時 檢索 方法 系統 | ||
1.一種大量數據情況下的可靠即時檢索方法,其特征在于:包括以下步驟:
S1:存儲數據庫配置信息;所述數據庫配置信息包括各數據類型、用于實現數據與類型映射的類標識、類型與存儲介質映射關系;
S2:接受查詢內容;
S3:將檢索目標內容進行數據切分,形成切片數據;
S4:根據數據庫配置信息的映射關系,對切片數據進行查詢解析,計算切片數據的存儲位置;
S5:將查詢解析后的信息分發至數據庫配置信息中對應的數據存儲數據庫;
S6:從對應的數據存儲數據庫提取符合檢索條件的特征數據;
S7:將提取的特征數據進行歸并;
所述信息分發包括以下步驟:
S51:預分發過程,將存在過濾條件的數據分發至特定的物理數據庫,并按照MapReduce方式處理;
S52:其余未執行的查詢過程會被分發至其他計算節點,并由多個計算節點并行完成剩余的數據處理流程;
所述數據切分包括以下步驟:
S31:將檢索目標內容按類別進行分類,并將不同的類分別以不同的表分布于不同的、互相獨立且相互間不存在通信過程的物理數據庫中;
判斷類的數據量是否超過內存的大小,如果否,則使用快速排序算法對不同的類進行排序,并將結果按順序輸出;
S32:如果是,則改變切分粒度,使得映射出來的塊數可以全部被容納在內存之后;再次進行上述S31開始的步驟;
在步驟S4后還包括以下步驟:
S41:建立用于存儲子表特征信息的查詢緩存,并存儲子表各個字段的特征信息;
S42:對數據的查詢操作,可根據查詢條件,判斷子表的值域與查詢條件是否重疊,若不重疊,則無需對子表進行轉發;
若重疊,則對子表進行轉發,并傳至結果歸并模塊。
2.根據權利要求1所述的大量數據情況下的可靠即時檢索方法,其特征在于:所述特征數據進行歸并采用MapReduce并行數據處理;所述MapReduce并行數據處理包括Map過程和Reduce過程;
所述Map過程將數據按照一定的方式劃分為多個組,每個組在不同的主機上分別并行地進行處理;
所述Reduce過程是將各個節點上計算的結果進行匯總,形成統一的結果。
3.一種大量數據情況下的可靠即時檢索系統,其特征在于:包括數據抽象模塊、查詢解析和分發模塊、數據存儲模塊和結果歸并模塊;
所述數據抽象模塊,用于存儲數據庫配置信息,所述配置信息包括數據與類型的映射、類與存儲介質的映射;
所述查詢解析和分發模塊,接受應用程序發來的請求,對請求的數據庫查詢語句進行解析,并翻譯成實際的數據庫查詢語句,轉發至實際數據庫中;用于根據數據庫配置信息的映射關系,對切片數據進行查詢解析,并計算切片數據的存儲位置;查詢解析后的信息分發至與數據庫配置信息相對應的數據存儲數據庫;
所述數據存儲模塊,用于從對應的數據存儲數據庫提取需要檢索的特征數據;
所述結果歸并模塊,用于將提取的特征數據進行歸并,使下層復雜的模塊化結構對上層用戶透明;
所述查詢解析和分發模塊包括預分發單元和未執行查詢執行單元;
所述預分發單元只將存在過濾條件的數據分發至特定的物理數據庫,并在結果歸并模塊中,按照MapReduce方式處理;
所述未執行查詢執行單元,用于將其余未執行的查詢過程,分發至其他計算節點,并由多個計算節點并行完成剩余的數據處理流程;
所述查詢解析和分發模塊還包括數據切分單元和數據量判斷單元;
所述數據切分單元,用于將檢索目標內容進行分類,并將不同的類分別以不同的表分布于不同的、互相獨立且相互間不存在通信過程的物理數據庫中;
所述數據量判斷單元,用于判斷類的數據量是否超過內存的大小,如果否,則使用快速排序算法對不同的類進行排序,并將結果按順序輸出;如果是,則改變切分粒度,使得映射出來的塊數可以全部被容納在內存之后;并返回數據切分單元;
還包括查詢緩存建立單元和查詢操作單元;
所述查詢緩存建立單元,用于建立用于存儲子表特征信息的查詢緩存,并存儲子表各個字段的特征信息;
所述查詢操作單元,用于對數據的查詢操作;根據查詢條件,判斷子表的值域與查詢條件是否重疊,若不重疊,則無需對子表進行轉發;若重疊,則對子表進行轉發傳至結果歸并模塊。
4.根據權利要求3所述的大量數據情況下的可靠即時檢索系統,其特征在于:所述結果歸并模塊采用MapReduce并行數據處理對特征數據進行歸并;所述MapReduce并行數據處理包括Map過程和Reduce過程;所述Map過程將數據按照一定的方式劃分為多個組,每個組在不同的主機上分別并行地進行處理;所述Reduce過程是將各個節點上計算的結果進行匯總,形成統一的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410228015.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





