[發明專利]一種基于智慧數據平臺的數據集成方法有效
| 申請號: | 202110697307.1 | 申請日: | 2021-06-23 |
| 公開(公告)號: | CN113434693B | 公開(公告)日: | 2023-02-21 |
| 發明(設計)人: | 付蔚;張棚;劉慶;吳志強;李正;胡燦偉;馮建強;段緒偉;袁馳;陳建波;楊宇;彭霞;段然 | 申請(專利權)人: | 重慶郵電大學工業互聯網研究院;重慶冠方智慧醫療科技有限公司;聯通數字科技有限公司;段然 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 楊柳岸 |
| 地址: | 401120 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智慧 數據 平臺 集成 方法 | ||
1.一種基于智慧數據平臺的數據集成方法,其特征在于:包括以下步驟:
S1:對數據進行語義鏈接,構建一個能夠充分利用異構數據的全局信息視圖的知識超圖;步驟S1具體包括以下步驟:
S11:使用基于OBDI范式和超圖的虛擬數據集成;所述基于OBDI范式和超圖的虛擬數據集成體系包括語義層和數據層,其中:
語義層,表示本體,用于提供感興趣領域的正式和高級表示;對于每個數據集,通過生成RDF注釋來使用領域本體對數據進行語義注釋;
數據層,表示可用數據及其元數據;生成一個RML映射文檔,包含領域本體和元數據之間的映射,具體取決于輸入的格式;
基于超圖的虛擬數據集成,并表示語音層和數據層之間的映射,所述映射即數據源和本體之間關系的顯式表示,用于將本體上的查詢轉換為數據源可處理的查詢;從而構建一個對應于生成的文檔的映射視圖超級節點;最后建立由RML映射視圖超節點和各種超邊組成的知識超圖,對環境觀測的不同視圖進行語義描述;
S12:使用數據語義標注算法,將元數據中的術語與本體中的類進行關聯,從而以語義一致的方式將各種資源連接在一起;所述的數據語義標注 算法,具體包括以下步驟:
S121:首先使用Onto-KIT系統提取元數據實體;
S122:在結構化和半結構化數據的情況下,通過訪問他們的模式和相應的結構信息以及利用數據結構不同的包裝提取元數據;
S123:利用數據語義注釋算法識別相關的元數據實體;
S124:在提取出元數據實體后,利用領域本體作為知識庫獲取與元數據實體相對應的語義實體;
S125:如果在元數據和本體類之間沒有發現匹配,利用已加載的同義詞庫來確定語義上相似的屬性,提取一組與元數據實體相匹配的詞庫實體并存儲在“setT”中;
S126:將每個詞庫實體與本體類進行匹配,并提取第一個相應的類;
S127:系統生成注釋A,注釋A是附加到數據集或數據集的特定部分的一種元數據形式;每個注釋A=(O,C,T,S具有以下組件:O為某個本體類,T為數據項,C為O和T之間的某些關系,S為對提取數據項的源的引用;再給定一組URI引用R、一組空白節點B和一組文字L,注釋a就是RDF四元組(O,C,T,S)∈(R∪B)×R×(R∪B∪L)×(R∪B),其包括元數據實體、類和數據源;整個過程對輸入數據集的所有元數據實體執行;
S128:最后,系統生成包含元數據實體、類和數據源的注釋;
S13:進行RML映射生成,將一個數據集作為輸入,并使用本體和生成的注釋生成一個RML映射文檔作為輸出,將元數據實體分為簡單元數據和復雜元數據兩類;所述的進行RML映射生成,具體包括以下步驟:
S131:對于每一個元數據,創建一個新的三元組映射;
S132:對于每個三元組映射,生成一個主題映射,所述主題映射定義為映射的資源生成惟一標識符的規則;所述主題映射將用作從這個三元組映射生成的所有RDF三元組的主題;
S133:對于每個三元組映射,生成許多謂詞對象映射,對象對應元數據實體,謂詞表示從本體中提取的元數據實體之間的關系,再引入另外兩個規則來處理簡單和復雜的元數據實體;
S134:使用rml:reference將每個簡單的元數據實體映射到一個謂詞對象映射和一個OWL數據或對象屬性;
S135:使用謂詞對象映射屬性rr:parentTriplesMap,將每個復雜元數據實體映射到另一個三元組映射和一個OWL對象-屬性;有助于生成更完整的映射;
S14:進行知識超圖模型的構建,RML映射圖記為RML_G=(V,E),其中,V是表示三元組映射的主題映射和對象映射的一組頂點,對應于RDF數據中的所有主題和對象;是一個多重集,對應于所有三元組的定向邊緣RML映射;
S2:基于知識超圖進行查詢處理,具體包括以下步驟:
S21:解析輸入SPARQL查詢并使用空間RDF存儲和時態RDF存儲生成其架構圖模式SGP;
S22:將SGP與映射視圖超級節點匹配,并提取一組相關的映射視圖超級節點和RML映射文檔的路徑;
S23:使用空間和時態RDF存儲將輸入SPARQL查詢轉換為具體的子查詢;
S24:RML映射處理以RDF格式生成數據并將其存儲在Buffer RDF存儲中,執行子查詢以獲得輸入SPARQL查詢的結果RDF知識圖;具體包括以下步驟:
S241:將提取的RML映射文檔和子查詢作為輸入,并從處理RML映射開始,以生成RDF三元組;
S242:使用RML Mapper 9映射進程執行器解析輸入映射并將其存儲在內存中;對于每個三元組映射,打開在邏輯源中定義的數據源,并使用適當的庫向該數據源提出已定義的迭代器查詢;
S243:在接收到結果集之后,映射處理器將遍歷結果中的所有特性,對于每個特性,遍歷所有謂詞-對象映射,并處理每個謂詞-對象映射以形成所需的RDF三元組;
S244:對于每個RML映射文檔,獲得一個緩沖的RDF三元組存儲;
S245:在不同的RDF存儲上執行生成的子查詢,以便從第一步中僅提取匹配SPARQL的RDF三元組,以此得到查詢處理的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學工業互聯網研究院;重慶冠方智慧醫療科技有限公司;聯通數字科技有限公司;段然,未經重慶郵電大學工業互聯網研究院;重慶冠方智慧醫療科技有限公司;聯通數字科技有限公司;段然許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110697307.1/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





