[發明專利]一種基于關系數據庫自動構建RDF的方法在審
| 申請號: | 201911006404.0 | 申請日: | 2019-10-22 |
| 公開(公告)號: | CN110795453A | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 楊天社;樊恒海;徐一鳴;劉帆;武帥;吳冠;馮軍華;邢楠;鐘文冬;楊旭;高波;傅娜;楊懷軍 | 申請(專利權)人: | 中國西安衛星測控中心;復旦大學 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/28;G06F16/36 |
| 代理公司: | 31323 上海元好知識產權代理有限公司 | 代理人: | 張靜潔;徐雯瓊 |
| 地址: | 710043 陜西省西安*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關系型數據庫 測試數據庫 引用關系 數據庫模式 數據庫內容 訓練數據庫 實體關系 關系數據庫 數據庫關系 機器學習 潛在關系 轉換規則 自動構建 發現 語句 轉換 | ||
1.一種基于關系數據庫自動構建RDF的方法,其特征在于,包含步驟:
S1、任意選取若干個關系型數據庫,提取所述關系型數據庫的數據庫模式特征值、數據庫內容實例特征值;所述數據庫模式特征值包含:屬性名稱語法近似度特征值、屬性名稱詞集相似度特征值、屬性數據類型匹配特征值、數據庫關系特征值;所述數據庫內容實例特征值包含:屬性交集特征值、屬性相似度特征值;
S2、選取所述若干個關系型數據庫中的部分關系型數據庫作為訓練數據庫,剩余的關系型數據庫作為測試數據庫;通過機器學習訓練所述訓練數據庫的數據庫模式特征值、數據庫內容實例特征值,生成實體關系發現模型;將所述測試數據庫的數據庫模式特征值、數據庫內容實例特征值輸入所述實體關系發現模型,通過實體關系發現模型得到測試數據庫包含的引用關系;
S3、為所述測試數據庫包含的引用關系生成對應的數據庫關系圖;
S4、根據關系型數據庫的RDF轉換規則,轉換所述測試數據庫包含的引用關系為對應的RDF語句。
2.如權利要求1所述的基于關系數據庫自動構建RDF的方法,其特征在于,步驟S1中關系型數據庫屬性名稱語法近似度特征值的計算方法為:
ai、aj為關系型數據庫的屬性,和分別為ai、aj的屬性名稱;
為ai、aj之間的屬性名稱語法近似度特征值,也即關系型數據庫中的一個屬性名稱語法近似度特征值,
其中別代的長度,表示之間的Levenshtein編輯距離,表示取中的大值。
3.如權利要求1所述的基于關系數據庫自動構建RDF的方法,其特征在于,步驟S1中計算關系型數據庫的屬性名稱詞集相似度特征值的方法為:
令ai、aj為關系型數據庫中的屬性,和分別為ai、aj的字符串表示,分別為ai、aj為ai、aj所在表的表名;其中i,j∈[1,N],N為關系型數據庫中包含的屬性總數;
將拆分得到的ni個單詞建立第i屬性單詞集合;拆分依序提取經拆分后所得單詞的首字母,構成第i首字母縮寫;將拆分所得的單詞、所述第i首字母縮寫、所述第i屬性單詞集合合并為第i詞集;刪除第i詞集中的stopword;
將拆分得到的nj個單詞建立第j屬性單詞集合;拆分依序提取經拆分后所得單詞的首字母,構成第j首字母縮寫;將拆分所得的單詞、所述第j首字母縮寫、所述第j屬性單詞集合合并為第j詞集;刪除第j詞集中的stopword;
計算ai到aj的屬性名稱詞集相似度特征值Ni為第i詞集的單詞數量;numij為第i詞集與第j詞集交集的單詞數量;計算aj到ai的屬性名稱詞集相似度特征值Nj為第j單詞集合的單詞數量;WordSim(ai,aj)、WordSim(aj,ai)為關系型數據庫的屬性名稱詞集相似度特征值。
4.如權利要求1所述的基于關系數據庫自動構建RDF的方法,其特征在于,生成步驟S1中關系型數據庫的屬性數據類型匹配特征值的方法為:
令ai、aj為關系型數據庫中的屬性,預設一個數據類型相似度表格,其每行代表ai的一個數據類型,其每列代表aj的一個數據類型,行與列交點值表示ai與aj的數據類型匹配特征值,也即關系型數據庫的屬性數據類型匹配特征值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國西安衛星測控中心;復旦大學,未經中國西安衛星測控中心;復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911006404.0/1.html,轉載請聲明來源鉆瓜專利網。





