[發明專利]一種基于動態探針的實體關聯挖掘方法有效
| 申請號: | 202110302533.5 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN112966027B | 公開(公告)日: | 2022-10-21 |
| 發明(設計)人: | 陶冶;郭帥童;丁香乾;侯瑞春;李輝;史操 | 申請(專利權)人: | 青島科技大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/28;G06F40/242;G06F40/253;G06F40/30;G06K9/62 |
| 代理公司: | 青島聯智專利商標事務所有限公司 37101 | 代理人: | 邵新華 |
| 地址: | 266061 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 動態 探針 實體 關聯 挖掘 方法 | ||
1.一種基于動態探針的實體關聯挖掘方法,其特征在于,包括:
配置探針,偵聽應用系統對數據庫的請求信息及對應的響應數據;
對偵聽到的數據進行處理,形成一個實體的格式化數據存入關系型數據庫;
將所述實體與關系型數據庫中的已有實體進行特征融合,過程為:
計算兩個對比實體的屬性信息的相似度;
計算兩個對比實體的屬性值的相似度;
計算兩個對比實體的日志相似度;
將計算得到的屬性信息相似度、屬性值相似度以及日志相似度,使用模糊邏輯推理方法,得出兩個對比實體的相似程度;
其中,所述計算兩個對比實體的屬性信息的相似度的過程為:
所述屬性信息包括屬性名和屬性約束;
屬性名相似度的計算過程包括:
計算樸素文本相似度S1;
計算文本語義相似度S2;
選擇S1、S2中的最大值作為屬性名相似度S3;
屬性約束相似度的計算過程包括:
將兩個對比實體的屬性約束向量分別定義為A、B;其中,Ai和Bi分別表示向量A和向量B所對應的第i個候選約束的取值;
計算其中,n為向量A和向量B中候選約束的個數,otherwise表示除Ai=Bi以外的其它情形;
計算屬性約束相似度
采用加權算法,計算兩個對比實體的屬性信息相似度S5=α·S3+β·S4;其中,α、β為權重,并且α∈[0,1],β∈[0,1]且α+β=1。
2.根據權利要求1所述的基于動態探針的實體關聯挖掘方法,其特征在于,所述樸素文本相似度S1采用以下公式計算獲得:
其中,w1和w2分別為兩個對比實體的屬性名;l1,l2為屬性名w1和w2的字符長度,D為屬性名w1和w2的編輯距離,Max為取最大值函數。
3.根據權利要求1或2所述的基于動態探針的實體關聯挖掘方法,其特征在于,所述文本語義相似度S2的計算過程為:
建立樹狀語義層級關系,形成樹狀圖;
通過屬性名在樹狀圖中對應的位置,計算兩個對比實體的屬性名w1和w2之間的相似度
其中,N1和N2分別表示屬性名w1、w2與最近公共父節點屬性名w之間的最短路徑;H表示從w到根節點的最短路徑。
4.根據權利要求1所述的基于動態探針的實體關聯挖掘方法,其特征在于,所述計算兩個對比實體的屬性值的相似度的過程為:
根據數據類型的不同,將屬性值分為四種類型,分別為:數值型、字符型、枚舉型、文本型;
針對數值型屬性值,選取平均值、算數中位數、眾數、樣本標準偏差、最大值、最小值中的多種或全部作為特征向量元素,構成與兩個對比實體相對應的特征向量u、v,計算兩個對比實體的屬性值的相似度
針對字符型屬性值,首先將兩個對比實體的屬性值合并,形成語料庫;然后采用詞頻-逆文檔頻率算法,分別計算出每一個實體的屬性值所對應的詞頻-逆文檔頻率,對應形成向量U、V;計算兩個對比實體的屬性值的相似度
針對枚舉型屬性值,在每一個實體的屬性值中至少包含兩個數據,將兩個對比實體的屬性值轉換成兩個集合A、B,計算兩個對比實體的屬性值的相似度其中,∩為交集符號;∪為并集符號;
針對文本型屬性值,采用深度學習中的自編碼算法建立數學模型,利用屬性值中的數據對模型進行訓練,利用訓練后的模型計算兩個對比實體的屬性值的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島科技大學,未經青島科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110302533.5/1.html,轉載請聲明來源鉆瓜專利網。





