[發明專利]相關數據的確定方法、裝置、計算機設備和存儲介質在審
| 申請號: | 201911418068.0 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN113127573A | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 李宇;劉建環 | 申請(專利權)人: | 奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06K9/62 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 程超 |
| 地址: | 100088 北京市西城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相關 數據 確定 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種相關數據的確定方法,其特征在于,包括:
獲取待分析的數據對象集,其中,所述數據對象集包括多個數據對象;
計算所述數據對象的數據畫像信息;
根據所述數據畫像信息對所述數據對象集進行聚類分析,得到若干聚類簇,其中,所述聚類簇包括若干所述數據對象;
計算同一所述聚類簇中所述數據對象之間的內容相似值;
計算同一所述聚類簇中所述數據對象之間的語義相似值;以及
在同一所述聚類簇中,根據所述內容相似值和所述語義相似值確定相關數據,其中,所述內容相似值越大、所述語義相似值越大的所述數據對象互為相關數據的概率越大。
2.根據權利要求1所述的相關數據的確定方法,其特征在于,計算所述數據對象的數據畫像信息的步驟包括:
計算所述數據對象的字符串長度、單詞數、唯一值、非空值、最大長度、最小長度和值分布。
3.根據權利要求2所述的相關數據的確定方法,其特征在于,計算同一所述聚類簇中所述數據對象之間的內容相似值的步驟包括:
使用所述數據對象的值分布計算所述數據對象之間的內容相似值。
4.根據權利要求1所述的相關數據的確定方法,其特征在于,計算同一所述聚類簇中任意兩個所述數據對象之間的語義相似值的步驟包括:
分別獲取兩個所述數據對象的語義信息,其中,所述語義信息包括所述數據對象的元數據名稱和組內元數據名稱;
根據所述語義信息計算兩個所述數據對象之間的語義相似值。
5.根據權利要求4所述的相關數據的確定方法,其特征在于,根據所述語義信息計算兩個所述數據對象之間的語義相似值的步驟包括:
對所述數據對象的元數據名稱和組內元數據名稱分別進行分詞處理和標準化處理,得到所述數據對象對應的詞元素;
采用WordNet模型計算兩個所述數據對象對應的詞元素之間的語義相似性;
根據兩個所述數據對象對應的詞元素之間的語義相似性計算兩個所述數據對象之間的語義相似值。
6.根據權利要求1所述的相關數據的確定方法,其特征在于,根據所述數據畫像信息對所述數據對象集進行聚類分析,得到若干聚類簇的步驟包括:
對所述數據畫像信息進行歸一化處理,得到標準數據畫像信息;
根據標準數據畫像信息的歐氏距離對所述數據對象集進行聚類分析,得到若干聚類簇。
7.根據權利要求1所述的相關數據的確定方法,其特征在于,在同一所述聚類簇中,根據所述內容相似值和所述語義相似值確定相關數據的步驟包括:
計算所述內容相似值與第一權重的乘積,得到第一乘積;
計算所述語義相似值與第二權重的乘積,得到第二乘積;
計算所述第一乘積和第二乘積的和得到綜合相似值;
當所述綜合相似值大于預設相似值時,所述綜合相似值對應的所述數據對象互為相關數據。
8.一種相關數據的確定裝置,其特征在于,包括:
獲取模塊,用于獲取待分析的數據對象集,其中,所述數據對象集包括多個數據對象;
第一計算模塊,用于計算所述數據對象的數據畫像信息;
聚類模塊,用于根據所述數據畫像信息對所述數據對象集進行聚類分析,得到若干聚類簇,其中,所述聚類簇包括若干所述數據對象;
第二計算模塊,用于計算同一所述聚類簇中所述數據對象之間的內容相似值;
第二計算模塊,用于計算同一所述聚類簇中所述數據對象之間的語義相似值;以及
確定模塊,用于在同一所述聚類簇中,根據所述內容相似值和所述語義相似值確定相關數據,其中,所述內容相似值越大、所述語義相似值越大的所述數據對象互為相關數據的概率越大。
9.一種計算機設備,包括存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至7任一項所述方法的步驟。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于:所述計算機程序被處理器執行時實現權利要求1至7任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司,未經奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911418068.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





