[發明專利]一種企業數據庫系統合標性評價方法在審
| 申請號: | 202310448064.7 | 申請日: | 2023-04-24 |
| 公開(公告)號: | CN116414719A | 公開(公告)日: | 2023-07-11 |
| 發明(設計)人: | 林劼;曾祥雨;胡飄;梁玉龍;白毅 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06F16/21;G06F16/36;G06F18/22;G06N3/042;G06N3/0442;G06N3/048;G06N5/022 |
| 代理公司: | 成都金英專利代理事務所(普通合伙) 51218 | 代理人: | 郭肖凌 |
| 地址: | 610041 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 企業 數據庫 系統 合標性 評價 方法 | ||
本發明公開了一種企業數據庫系統合標性評價方法,包括:1.根據企業的不同數據描述源進行對應關系集的定義,分別建立數據標準文檔關系集和數據庫系統關系集,對業務字段間的關系進行定義和表示;2.分別基于數據標準文檔關系集和數據庫系統關系集提取對應的三元組,并分別構建數據標準文檔知識圖譜和數據庫系統知識圖譜;3.將企業數據標準文檔知識圖譜和數據庫系統知識圖譜進行圖譜對齊;4.基于圖譜實體對齊結果,結合訓練過程中實體相似度衡量,篩選出異常業務字段;5.定義企業數據庫系統合標性評價指標,并基于實體對齊結果及異常業務字段篩選結果,計算系統合標性評價。具有較好的準確性和全面性,有效地降低了時間成本和人力成本。
技術領域
本發明涉及數據庫領域,具體為一種企業數據庫系統合標性評價方法。
背景技術
隨著互聯網和信息技術的發展,企業數據呈海量式增長,并呈現多源異構的特征。企業數據描述源以數據標準文檔和數據庫系統為主。在企業數據庫系統構建和不斷迭代更新過程中,可能已出現數據標準文檔和數據庫系統不匹配的情況,如數據庫系統實際構建和迭代更新時所刪除的不再具有業務應用需求的部分業務字段,未及時在數據標準文檔中予以同步。又或數據庫系統為適應具體應用場景更新而新增加的業務字段,以及基于項目實際應用場景所進行的使用性優化如字段冗余設計等,且未及時同步至數據標準文檔中,都會造成二者的不匹配問題。鑒于數據標準文檔中記錄的數據字段,不同業務人員在數據庫中的具體實現時可能采用了不同的命名形式,也給不同數據描述源中數據字段的匹配參照,以及異常業務字段的獲取造成了較大障礙。因此針對企業,如何進行高效全面的企業數據庫系統合標性評價,通過系統合標性評價來把握數據標準文檔和數據庫系統的匹配度成為一項重要的問題。
企業數據庫系統合標性評價方法,目前的方法集中在以下幾個方面:(1)基于人工對齊的方法:這種方法相對來說最為準確,但需要耗費大量人力和時間成本,且隨著信息化時代下數據的爆炸式增長,更是難以商業化。(2)基于深度學習的方法:基于深度學習的信息獲取,目前效果最好,但是需要大量人工標注的樣本,訓練成本很高。
發明內容
本發明提供一種企業數據庫系統合標性評價方法,包括:關系集定義,知識圖譜構建,實體對齊,異常業務字段篩選,系統合標性評價;所述關系集定義,根據企業的不同數據描述源進行對應關系集的定義,分別建立數據標準文檔關系集和數據庫系統關系集,對業務字段間的關系進行定義和表示;所述知識圖譜構建,基于定義的關系集,分別基于數據標準文檔和數據庫系統提取對應的三元組,并分別構建數據標準文檔知識圖譜和數據庫系統知識圖譜;所述實體對齊,將企業數據標準文檔知識圖譜和數據庫系統知識圖譜進行圖譜對齊,即實體對齊;所述異常業務字段篩選,基于圖譜實體對齊結果,結合訓練過程中實體相似度衡量,篩選出異常業務字段;所述系統合標性評價,定義企業數據庫系統合標性評價指標,并基于實體對齊結果及異常業務字段篩選結果,計算系統合標性評價。
進一步地,所述實體對齊包括以下子步驟:S31.定義數據標準文檔知識圖譜G1=(E1,R1,T1)和數據庫系統知識圖譜G2=(E2,R2,T2),其中,E表示實體、R表示關系、T表示知識圖譜的三元組;S32.神經網絡設計,針對企業數據描述源中的多類關系,將其視為不同視圖,并采用共有視圖嵌入和特有視圖嵌入來共同得到實體的最終表示;S33.基于兩個知識圖譜實體間的距離進行實體對齊。
進一步地,所述共有視圖嵌入采用GCN,并結合高速門控機制,來提取不區分關系類型下的實體全局結構信息,作為共有視圖特征,其中節點vi的特征更新計算過程為:H(l+1)=T(H(l))·H(l+1)+(1-T(H(l)))·H(l),其中,H(l)為GCN第l層的輸出,作為第l+1層的輸入,σ為sigmoid激活函數,)WT(l)、bT(l)分別為轉換門T(H(l))的權重矩陣和偏差向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310448064.7/2.html,轉載請聲明來源鉆瓜專利網。





