[發(fā)明專利]一種在大數(shù)據(jù)量存儲中快速檢索的方法有效
| 申請?zhí)枺?/td> | 201110116710.7 | 申請日: | 2011-05-05 |
| 公開(公告)號: | CN102184222A | 公開(公告)日: | 2011-09-14 |
| 發(fā)明(設(shè)計)人: | 范淵;楊永清;李凱 | 申請(專利權(quán))人: | 杭州安恒信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州中成專利事務(wù)所有限公司 33212 | 代理人: | 金祺 |
| 地址: | 310051 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)量 存儲 快速 檢索 方法 | ||
1.一種在大數(shù)據(jù)量存儲中快速檢索的方法,其特征在于,包括如下步驟:
A、采用關(guān)系型數(shù)據(jù)庫存儲審計記錄,每條記錄擁有唯一ID,并以慣常使用的檢索特性為字段;
B、協(xié)議解析模塊獲取審計記錄后,對該審計記錄進(jìn)行入庫,而不對該審計記錄對應(yīng)的SQL語句進(jìn)行語義分析所產(chǎn)生的細(xì)粒度信息進(jìn)行入庫;
C、使用獨立的全文索引引擎監(jiān)控審計記錄入庫情況,對新入庫的審計記錄建立全文索引,并逐級建立和維護(hù)當(dāng)前索引、單位小時索引、單位天索引;
D、檢索時,以檢索特性為關(guān)鍵字使用全文索引進(jìn)行檢索,獲取符合特性的審計記錄的主ID集,再通過主ID集獲取符合檢索特性的所有審計記錄的完整信息。
2.根據(jù)權(quán)利要求1所述的一種在大數(shù)據(jù)量存儲中快速檢索的方法,其特征在于,所述的步驟B進(jìn)一步包括如下:
B1、通過網(wǎng)絡(luò)采集模塊和協(xié)議解析模塊獲取審計記錄;
B2、獲取的審計記錄被存入入庫文件,當(dāng)該入庫文件包含的審計記錄數(shù)達(dá)到某一設(shè)定門限、或該入庫文件存在周期超過某一設(shè)定時間門限時,將把該入庫文件移動到可入庫目錄,并打開新的入庫文件用以記錄新的審計記錄;
B3、移動入庫文件到可入庫目錄后,登記該入庫文件所包含的審計記錄ID范圍及入庫文件名的對應(yīng)關(guān)系;
B4、使用關(guān)系型數(shù)據(jù)庫數(shù)據(jù)導(dǎo)入工具M(jìn)ysqlimport對入庫文件進(jìn)行入庫,入庫后刪除入庫文件。
3.根據(jù)權(quán)利要求2所述的一種在大數(shù)據(jù)量存儲中快速檢索的方法,其特征在于,執(zhí)行所述步驟C時,進(jìn)一步包括:
C4、監(jiān)控步驟B3中的登記信息;
C5、如果步驟C4中發(fā)現(xiàn)有新入庫文件產(chǎn)生,則檢查該入庫文件是否存在;
C6、如果步驟C5中新入庫文件已被刪除,根據(jù)步驟B4,說明該入庫文件已經(jīng)入庫完成,該入庫文件所對應(yīng)登記信息中ID范圍內(nèi)的審計記錄需要建立全文索引;
C7、在當(dāng)前索引文件中,為步驟C6中需要建立全文索引的審計記錄建立全文索引,并刪除步驟B3中對應(yīng)的登記信息;
C8、把當(dāng)前索引文件合并到當(dāng)前小時索引文件中,并初始化當(dāng)前索引文件。
4.根據(jù)權(quán)利要求3所述的一種在大數(shù)據(jù)量存儲中快速檢索的方法,其特征在于,所述的步驟C7進(jìn)一步包括如下:
C71、步驟C6中需要建立全文索引的ID范圍所對應(yīng)的審計記錄,是本次全文索引的數(shù)據(jù)源;
C72、審計記錄中可以被用來做檢索條件的字段,都將被建立全文索引,可根據(jù)這些字段來檢索獲取審計記錄ID;
C73、對于除SQL語句外的其他檢索特性,在獲取數(shù)據(jù)源數(shù)據(jù)時為每一個字段內(nèi)容加上特殊的前后綴,以極大減少該內(nèi)容作為一個單詞出現(xiàn)在其他字段內(nèi)容中的概率,確保全文檢索準(zhǔn)確性;
C74、根據(jù)步驟C73的規(guī)則,以步驟C6中ID范圍的審計記錄為數(shù)據(jù)源,在當(dāng)前索引中建立全文索引;
C75、刪除步驟B3中對應(yīng)的登記信息。
5.根據(jù)權(quán)利要求4所述的一種在大數(shù)據(jù)量存儲中快速檢索的方法,其特征在于,所述的步驟D進(jìn)一步包括如下:
D1、為用戶輸入的每個檢索特性內(nèi)容附加上步驟C73所述與該特性一致的特殊的前后綴,形成檢索關(guān)鍵詞;
D2、以步驟D1中的檢索關(guān)鍵詞為搜索條件,在當(dāng)前小時索引文件、當(dāng)前天索引文件以及根據(jù)搜索的時間段范圍決定的包含日期的天索引文件中進(jìn)行檢索,獲取審計記錄ID;
D3、根據(jù)審計記錄ID,在關(guān)系型數(shù)據(jù)庫中獲取符合條件的審計記錄的完整信息。
6.根據(jù)權(quán)利要求1所述的一種在大數(shù)據(jù)量存儲中快速檢索的方法,其特征在于,步驟A中所述的檢索特性是在對數(shù)據(jù)進(jìn)行檢索時慣常使用的數(shù)據(jù)特征值,是下述內(nèi)容中的至少一種:登錄用戶名、客戶端IP、服務(wù)端IP、訪問時間、SQL語句、被訪問的數(shù)據(jù)庫名、被訪問的表、被訪問的字段或SQL操作類型。
7.根據(jù)權(quán)利要求1所述的一種在大數(shù)據(jù)量存儲中快速檢索的方法,其特征在于,所述的步驟C中,還進(jìn)一步包括:
C1、將全文索引文件分成當(dāng)前索引文件、當(dāng)前小時索引文件、當(dāng)天索引文件、包含日期的天索引文件;
C2、根據(jù)時間判斷是否需要把當(dāng)前小時文件合并到當(dāng)天索引中,如果離上一次該類合并動作超過一小時,則進(jìn)行合并,并初始化當(dāng)前小時索引文件;
C3、根據(jù)時間判斷是否需要把當(dāng)天索引文件演變?yōu)槿掌谔焖饕募绻x上一次合并動作的日期發(fā)生變更,則把當(dāng)天索引文件變更為包含日期的天索引文件,并初始化當(dāng)天索引文件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州安恒信息技術(shù)有限公司,未經(jīng)杭州安恒信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110116710.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





