[發明專利]一種高效的分布式的RDF數據存儲方法有效
| 申請號: | 201610064516.1 | 申請日: | 2016-01-29 |
| 公開(公告)號: | CN105608228B | 公開(公告)日: | 2019-05-17 |
| 發明(設計)人: | 吳志堅;黎建輝;周園春;侯艷飛;韓岳岐 | 申請(專利權)人: | 中國科學院計算機網絡信息中心 |
| 主分類號: | G06F16/51 | 分類號: | G06F16/51 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 司立彬 |
| 地址: | 100190 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 高效 分布式 rdf 數據 存儲 方法 | ||
本發明公開了一種高效的分布式的RDF數據存儲方法。本方法為:1)用戶為待上傳的每一三元組選取一命名圖或設定一新的命名圖;并根據業務需求為該三元組設定一有效謂詞及其三元組;2)數據控制系統對用戶上傳的RDF數據中的每條三元組進行解析,提取該三元組的謂詞及該三元組的命名圖的有效謂詞;然后根據該有效謂詞,將該三元組拆分成具有相同唯一標識的兩個三元組:同一主語的完整謂詞的三元組和同一主語的有效謂詞的三元組;有效謂詞為完整謂詞中一部分謂詞;3)數據控制系統將得到的同一主語的完整謂詞的三元組數據和同一主語的有效謂詞的三元組數據分別存儲到不同的數據庫集群。本發明得到提升了數據的高可用性。
技術領域
本發明涉及RDF數據存儲技術領域,特別是高效的分布式的RDF數據存儲方法,屬于計算機軟件領域。
背景技術
隨著互聯網技術的高速發展,使得互聯網的應用范圍越來越廣泛,并且形成一個龐大的知識網絡庫,但同時也帶來很多挑戰,為了把不同形式的知識網絡庫連接起來,讓計算機能夠理解數據與數據之間的聯系,提出了語義網的概念。語義網的目標是讓網絡上的信息資源能夠被機器理解,從而實現網絡信息資源的自動化處理,以適應網絡信息資源的快速增長。
語義網定義一種資源描述框架RDF來描述網絡上的信息資源。RDF是一個網絡資源對象和其間關系的數據模型,提供一個通用的數據模型來支持對網絡資源的描述,RDF使用三元組(主語、謂語和賓語)來描述網絡上的各種資源和他們之間的關系。從圖的角度分析,該模型是由節點和節點之間的邊構成,節點表示主語和賓語,邊表示謂語,如此可以用節點表示資源,邊表示資源的屬性。
目前對RDF數據存儲普遍采用單機RDF數據庫管理系統,比如:GraphDB、stardog和allegrograph等。這種RDF存儲方式可以管理大量的三元組數據,但是隨著互聯網信息資源的快速增長,單機的存儲能力有限,已不能滿足目前海量三元組數據存儲的需求。針對海量三元組數據的存儲有學者提出了多種方案,但都處在研究階段。比如使用Hadoop或Hbase分布式集群存儲三元組數據,由于Hadoop或Hbase都天然具有海量數據的存儲管理能力,并采用mapreduce模擬實現數據查詢;但是由于這種存儲方式使得同一主語的三元組數據存儲具有分散性,即同一主語的三元組可能存儲在多臺機器;加上RDF數據關聯關系的復雜性,每個三元組之間都有可能存在關聯關系,mapreduce模擬實現數據查詢方案進行數據查詢時,需要進行大量的數據關聯篩選,目前的存儲方案不能實現對數據高速的查詢,查詢性能比較低,特別是數據量很大的情況下,一條簡單的查詢可能就需要執行十幾秒,不能滿足實際的業務查詢需求。
發明內容
針對上面提到的RDF數據存儲中遇到的問題,本發明提出了一種高效的分布式的RDF數據存儲方法,解決現有RDF數據存儲方式中數據存儲量有限、三元組數據分散的問題。
為解決上述問題,本發明提出了一種高效的分布式的RDF數據存儲方法,該方法主要包括以下實現步驟:
1)數據解析器對用戶上傳的RDF數據進行解析,把每條三元組數據解析成統一格式的三元組對象;對解析后的數據進行處理,解析并提取三元組中的謂詞,提取命名圖的有效謂詞,有效謂詞通過用戶的業務需求而定義,用戶根據具體的業務需求確定目前用到的謂詞三元組,即構成有效謂詞的三元組。根據該命名圖的有效謂詞,把同一主語的三元組數據拆分成兩部分,即同一主語的完整謂詞的三元組數據和同一主語的有效謂詞的三元組數據;同一主語的完整謂詞的三元組數據即是同一主語的完整的三元組數據,同一主語的有效謂詞的三元組數據即是同一主語的部分謂詞的三元組數據,因此同一主語的有效謂詞的三元組數據是同一主語的完整謂詞的三元組數據子集。根據該命名圖的有效謂詞,把同一主語的三元組數據拆分成兩部分,即同一主語的完整謂詞的三元組數據和同一主語的有效謂詞的三元組數據;并生成唯一ID,唯一標示該主語的三元組,每一主語的三元組都會生成該唯一ID,用于唯一標示該主語的三元組,同一主語的完整謂詞的三元組數據和同一主語的有效謂詞的三元組數據共用該唯一ID。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算機網絡信息中心,未經中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610064516.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于確定引導線的布置位置的方法和裝置
- 下一篇:一種大數據并發存儲系統及方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





