[發明專利]一種基于多文件格式自動識別的跨地域關聯統計方法在審
| 申請號: | 201710165255.7 | 申請日: | 2017-03-20 |
| 公開(公告)號: | CN107168984A | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 畢慧;付戈;李超;王振宇;李斌斌;王樹鵬 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 邱曉鋒 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文件格式 自動識別 地域 關聯 統計 方法 | ||
1.一種基于多文件格式自動識別的跨地域關聯統計方法,其步驟包括:
1)通過統一SQL查詢入口接收SQL查詢請求;
2)對SQL查詢請求進行解析,以識別查詢的不同文件格式;
3)全局節點將解析成功后的查詢請求發送到對應的分節點;
4)各分節點進行相應的查詢操作,并將查詢結果回傳給全局節點;
5)全局節點對各分節點回傳的數據進行關聯統計,并輸出統計結果。
2.如權利要求1所述的方法,其特征在于:步驟1)所述統一SQL查詢入口支持多種過濾條件,包括數值類型的判定、邏輯表達式、模糊匹配、正則匹配,并且這些過濾條件能夠任意組合。
3.如權利要求1所述的方法,其特征在于:步驟2)通過庫表信息獲取系統內庫表唯一標識,通過標識符獲取文件存儲屬性,從而識別不同的文件格式。
4.如權利要求1所述的方法,其特征在于:步驟2)所述不同文件格式包括HDFS中的Parquet文件;本地磁盤中Lucene索引文件;HBase中Hfile文件;其中,Parquet文件提供離線統計分析功能,Parquet格式支持多層嵌套和多種格式壓縮;Lucene文件提供在線系統的實時統計功能和海量數據的索引查找,Lucene文件本身包含內部索引文件并記錄數據在文件中的位置信息,加快檢索速度,Lucene文件默認采用壓縮存儲以有效降低存儲空間;Hfile文件提供精確查詢功能,通過key/value存儲模式實現實時查詢,通過MapReduce進行離線處理或者批處理。
5.如權利要求1所述的方法,其特征在于:步驟2)中若解析失敗,則返回語法錯誤。
6.如權利要求1所述的方法,其特征在于:步驟4)中若各分節點查詢成功則將數據返回給全局節點,若查詢失敗且沒有超過重查次數,則進行重查,若超過重查次數,則返回查詢失敗。
7.如權利要求6所述的方法,其特征在于:步驟4)中若數據傳輸成功,則結束本次查詢,若傳輸失敗且沒有超過重傳次數,則進行重傳,否則返回傳輸失敗。
8.如權利要求1所述的方法,其特征在于:步驟5)中若全局節點在規定時間內接收到所有分節點回傳的數據,則進行下一步關聯統計,否則返回查詢錯誤。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心,未經國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710165255.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于大數據的位置發現方法
- 下一篇:一種模糊文件屬性信息的方法及裝置





