[發明專利]一種基于知識圖譜技術的數據智能分級方法有效
| 申請號: | 202210834822.4 | 申請日: | 2022-07-15 |
| 公開(公告)號: | CN115374106B | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 金震;張京日;穆宇浩 | 申請(專利權)人: | 北京三維天地科技股份有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/36;G06F18/23213;G06F16/28;G06N3/04;G06N5/02 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 張樹朋 |
| 地址: | 100000 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 技術 數據 智能 分級 方法 | ||
本發明提供了一種基于知識圖譜技術的數據智能分級方法,包括:獲取數據物理表之間的血緣關系,根據血緣關系生成數據物理表知識圖譜;利用改進的特征向量中心性算法,計算數據物理表知識圖譜中物理表的網絡權重;獲取兩個特征數據集,兩個特征數據集為:數據物理表的數據訪問情況數據集和數據更新頻率數據集,基于K?means聚類算法對所述兩個特征數據集進行聚類分析,生成聚類分析結果;根據聚類分析結果和網絡權重,基于層次分析法和熵權法,構建數據物理表重要度評估公式;利用數據物理表重要度評估公式對數據物理表進行評估,根據評估結果獲得核心關鍵數據。本發明提高了核心關鍵數據的識別效率和數據的智能分級水平。
技術領域
本發明涉及知識圖譜技術領域,尤其涉及一種基于知識圖譜技術的數據智能分級方法。
背景技術
數據管理需要遵循一定的優先級開展,在具體的治理過程中,核心關鍵數據的識別,對下一步的數據治理、數據分析將起到至關重要的作用。而識別關鍵數據,通常依賴業務經驗、人工定義,存在一定的偏差、盲區;如何精準的識別關鍵物理表,是需要解決的問題。
發明內容
本發明提供了一種基于知識圖譜技術的數據智能分級方法,基于數據物理表的關系,對現有的數據進行重要性評估,提高了核心關鍵數據的識別效率和數據的智能分級水平。
本發明提供了一種基于知識圖譜技術的數據智能分級方法,包括:
S1:獲取數據物理表之間的血緣關系,根據血緣關系生成數據物理表知識圖譜;
S2:利用改進的特征向量中心性算法,計算數據物理表知識圖譜中物理表的網絡權重;
S3:獲取兩個特征數據集,兩個特征數據集為:數據物理表的數據訪問情況數據集和數據更新頻率數據集,基于K-means聚類算法對所述兩個特征數據集進行聚類分析,生成聚類分析結果;
S4:根據聚類分析結果和網絡權重,基于層次分析法和熵權法,構建數據物理表重要度評估公式;
S5:利用數據物理表重要度評估公式對數據物理表進行評估,根據評估結果獲得核心關鍵數據。
進一步地,S1包括:構建第一本體模型,基于第一本體模型生成數據物理表的知識圖譜;所述構建第一本體模型的方法包括:
S101:獲取用于創建數據物理表知識圖譜的本體模型;
S102:基于預設的本體模型質量評價條件對本體模型進行評價;所述本體模型質量評價條件基于數據的完整性、簡潔性、清晰性和可用性制定;
S103:篩選出評價結果符合預設評價結果閾值的第一本體模型。
進一步地,S1包括:
S104:解析數據物理表之間的血緣關系,獲取血緣關系的特征類別;
S105:選取所述特征類別中的歸屬性、層次性、多源性特征,基于預設的關系抽取模型進行關系抽取,獲得數據物理表的實體關系;
S106:將數據物理表、數據物理表的實體關系輸入第一本體模型,生成數據物理表的知識圖譜。
進一步地,S2包括:
S201:采用改進的特征向量中心性算法對數據物理表知識圖譜中的實體節點進行重要度分析;所述改進的特征向量中心性算法為基于加權的PageRank算法;
S202:獲取實體節點的重要度數組、節點總數、阻尼系數和收斂門限,并進行初始化賦值;
S203:根據初始化賦值,計算實體節點的出弧計數矩陣、出弧權重和矩陣;
S204:對實體節點重要度進行迭代計算,獲得連續兩次的重要度數組值,計算獲得連續兩次的重要度數組值的差值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三維天地科技股份有限公司,未經北京三維天地科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210834822.4/2.html,轉載請聲明來源鉆瓜專利網。





