[發明專利]一種基于Hadoop的海量RDF數據分布式查詢處理方法無效
| 申請號: | 201310037662.1 | 申請日: | 2013-01-31 |
| 公開(公告)號: | CN103116625A | 公開(公告)日: | 2013-05-22 |
| 發明(設計)人: | 張小洪;楊丹;李珩;謝娟;成正斌;洪明堅;葛永新;楊夢寧;徐玲;胡海波 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 400044 *** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 海量 rdf 數據 分布式 查詢 處理 方法 | ||
1.一種基于Hadoop的海量RDF數據分布式查詢處理方法,利用MapReduce框架對存儲于分布式數據庫HBase中的RDF數據進行SPARQL查詢,所述方法包括:
步驟a:將RDF數據上傳至HDFS中,通過Hadoop平臺的MapReduce框架讀取數據將其并行存儲在HBase中;
步驟b:對用戶提交的SPARQL查詢語句段進行預處理,對語句進行解析并提取出其中的前綴聲明、結果變量、圖模式子句;
步驟c:還原圖模式子句中的前綴字符,將還原后的圖模式子句轉化為樹模型,以樹的結構來表示查詢語句的完整圖模式;
步驟d:分解樹模型,以自底向上、自左向右的方式遍歷樹節點并生成匹配各節點的查詢計劃,并將查詢計劃發送到Hadoop平臺;
步驟e:通過MapReduce框架從HBase中讀取數據,按照查詢計劃執行分布式查詢,最后按結果變量返回查詢結果。
2.如權利要求1所述的基于Hadoop的海量RDF數據分布式查詢處理方法,其特征在于,所述步驟a中:
利用MapReduce框架將RDF數據存儲入HBase中,其中以三張表來存儲RDF數據,分別為:將RDF三元組的主體、謂詞組合作為rowkey存儲,客體作為column?name存儲;將RDF三元組的謂詞、客體組合作為rowkey存儲,主體作為columnname存儲;將RDF三元組的客體、主體組合作為row?key存儲,謂詞作為column?name存儲。
3.如權利要求1所述的基于Hadoop的海量RDF數據分布式查詢處理方法,其特征在于,所述步驟c包括:
步驟c1:對圖模式子句中的三元組模式進行編號;
步驟c2:利用提取出的前綴聲明替代圖模式子句中的前綴字符;
步驟c3:將圖模式子句轉化為樹結構模型。
4.如權利要求1所述的基于Hadoop的海量RDF數據分布式查詢處理方法,其特征在于,所述步驟d包括:
步驟d1:首先從樹模型結構倒數第二層以自底向上、自左向右的方式遍歷整棵樹,依次取出各節點;
步驟d2:根據節點的子節點創建三元組模式集合以及變量集合,變量集合包括變量名、變量連接三元組模式編號及其在三元組模式中的位置;
步驟d3:按照節點類型創建匹配該節點的一系列job信息,并重寫該節點;
步驟d4:將生成的一系列job信息作為查詢執行計劃發送到Hadoop平臺。
5.如權利要求1所述的基于Hadoop的海量RDF數據分布式查詢處理方法,其特征在于,所述步驟e包括:
步驟e1:通過MapReduce框架讀取HBase中數據;
步驟e2:按執行計劃執行BGP連接操作、左連接操作以及合并操作,最終完成分布式查詢;
步驟e3:按照結果變量提取最終結果,返回查詢結果。
6.如權利要求5所述的基于Hadoop的海量RDF數據分布式查詢處理方法,其特征在于,所述步驟e2中查詢執行計劃中MapReduce?job執行BGP連接操作包括:
步驟e21:Mapper任務讀取HBase中數據,利用HBase過濾器首先對數據進行過濾。
步驟e22:在Mapper任務中進一步對數據進行過濾,并重新組織數據,按key-value形式輸出。
步驟e23:在Mapper->Reducer階段,對數據進行排序、濃縮,將Mapper輸出數據按key值進行排序并濃縮。
步驟e24:在Reducer任務中,將具有相同key的value按key執行連接操作,完成BGP連接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310037662.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種門禁系統
- 下一篇:基于USB總線的虛擬儀器





