[發明專利]創建基準圖數據有效
| 申請號: | 201280015691.1 | 申請日: | 2012-01-11 |
| 公開(公告)號: | CN103477321B | 公開(公告)日: | 2017-05-17 |
| 發明(設計)人: | 段松云;A·凱門西斯迪斯;K·斯里尼瓦斯;O·烏德雷亞 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F9/44 | 分類號: | G06F9/44 |
| 代理公司: | 北京市中咨律師事務所11247 | 代理人: | 于靜,張亞非 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 創建 基準 數據 | ||
技術領域
本發明一般地涉及資源描述框架數據,更具體地說,涉及創建基準(benchmark)圖數據。
背景技術
RDF(資源描述框架)迅速成為信息表示和交換的實際標準。這一點在最近的鏈接開放數據(LOD)計劃中得到了最突出的體現,其中相互鏈接來自不同域(如地理位置、人員、公司、書籍、電影、科學數據(基因、蛋白質、藥物)、統計數據等)的數據以便提供一個大型數據云。到2010年10月為止,這種云包括大約200個數據源,總計貢獻250億個RDF三元組(triple)。但是,對RDF的接受并不限于網絡上提供的開放數據。政府也采用RDF。許多大型公司和組織使用RDF作為業務數據表示格式,用于語義數據集成、搜索引擎優化和更好的產品搜索,或者用于來自信息提取的數據表示。實際上,隨著GOOGLE和YAHOO將RDF推廣用于搜索引擎優化,這顯然激勵其在網絡上的發展。
RDF廣為接受的一個主要原因是其固有的靈活性:范圍從結構化數據(例如,DBLP)到非結構化數據(例如,WIKIPEDIA/DBpedia)的一組多樣數據都可以以RDF表示。傳統上,當確定適當的數據表示格式(例如,針對結構化數據使用關系模型,針對半結構化數據使用XML)時,數據集的結構性(structuredness)(在此定義為指結構數量(如果有))是一個關鍵的考慮因素。這種選擇又在很大程度上確定如何組織數據(例如,針對關系模型和XML使用依賴理論和正規形式)。當確定如何索引數據(例如,針對關系數據使用B+樹索引,針對XML使用基于編號方案的索引)時,它起著極其重要的作用。結構性還影響如何查詢數據(例如,針對關系數據使用SQL,針對XML使用XPath/XQuery)。換言之,數據結構性滲入數據管理的每個方面,因此通常針對具有預期結構性級別的數據衡量數據管理系統的性能(例如,針對關系數據使用TPC-H基準,針對XML數據使用XMark基準)。RDF的主要優勢是它可以用于跨整個結構性范圍(從非結構化到結構化)準確地表示數據。但是,RDF的這種靈活性要付出代價。如果模糊結構性界限,則RDF數據的管理成為一項挑戰,因為RDF DBMS不能先驗做出關于要管理哪種(哪些)類型數據的假設。不同于關系和XML情況,RDF DBMS具有繁重的要求,即應該針對非常多樣化的數據集(就結構性而言)測試其性能。
目前提供了若干RDF數據管理系統(又稱為RDF存儲)。還存在支持通過關系(列)存儲進行RDF存儲的研究原型。為了測試這些RDF存儲的性能,還開發了多個RDF基準。同樣為了測試RDF存儲,已普及使用某些實際數據集。盡管現有基準主要集中于RDF存儲在可擴展性方面的性能(即,被測試RDF數據中的三元組數量),但自然要問的問題是實際針對哪些類型的RDF數據測試這些RDF存儲。即,需要調查:(a)現有性能測試是否限于結構性范圍的特定區域;以及(b)范圍中的這些被測試區域是什么。為此并且具體地說,我們表明(i)每個基準數據集的結構性實際是固定的;以及(ii)即使針對完整可用基準數據集測試存儲,這些測試也僅僅覆蓋結構性范圍的一小部分。但是,我們表明許多實際RDF數據集當前位于范圍的未測試部分中。
發明內容
根據本原理的一個方面,提供一種用于生成資源描述框架基準的方法。所述方法包括:從具有給定大小和給定一致性的輸入數據集并針對該輸入數據集,獲得具有用戶指定大小和用戶指定一致性的結果基準數據集,方式為:確定為了獲得所述結果基準數據集,要將哪些主題-屬性-對象三元組添加到所述輸入數據集或者要從所述輸入數據集刪除哪些主題-屬性-對象三元組。
根據本原理的另一個方面,提供另一種用于生成資源描述框架基準的方法。所述方法包括從具有給定大小和給定一致性的輸入數據集并針對該輸入數據集,獲得具有用戶指定大小和用戶指定一致性的結果基準數據集。所述獲得步驟包括計算相應硬幣,每個硬幣表示相應值,當分別向所述輸入數據集添加或從所述輸入數據集刪除具有是多個類型集中的類型實例的主題和具有等于特定屬性集的屬性的所有主題-屬性-對象三元組時,針對獲得所述結果基準數據集而使用所述相應值增加或減小所述輸入數據集的一致性。針對所述多個類型集中的僅一個相應類型集中的所有類型和針對所述特定屬性集中的僅一個相應屬性而計算每個所述相應硬幣。所述獲得步驟還包括確定為了獲得所述結果基準數據集,要添加到所述輸入數據集或從所述輸入數據集刪除的三元組數量,該三元組數量由所述相應硬幣表示。所述獲得步驟還包括將所確定數量的三元組添加到所述輸入數據集或從所述輸入數據集刪除所確定數量的三元組,以便獲得所述結果基準數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201280015691.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





