[發明專利]相關數據的確定方法、裝置、計算機設備和存儲介質在審
| 申請號: | 201911418068.0 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN113127573A | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 李宇;劉建環 | 申請(專利權)人: | 奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06K9/62 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 程超 |
| 地址: | 100088 北京市西城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相關 數據 確定 方法 裝置 計算機 設備 存儲 介質 | ||
本發明提供了一種相關數據的確定方法、裝置、計算機設備和存儲介質。該相關數據的確定方法包括:獲取待分析的數據對象集,其中,數據對象集包括多個數據對象;計算數據對象的數據畫像信息;根據數據畫像信息對數據對象集進行聚類分析,得到若干聚類簇,其中,聚類簇包括若干數據對象;計算同一聚類簇中數據對象之間的內容相似值;計算同一聚類簇中數據對象之間的語義相似值;以及在同一聚類簇中,根據內容相似值和語義相似值確定相關數據,其中,內容相似值越大、語義相似值越大的數據對象互為相關數據的概率越大。通過本發明,能夠實現大數據場景下的相關數據的自動識別。
技術領域
本發明涉及大數據技術領域,尤其涉及一種相關數據的確定方法、裝置、計算機設備和存儲介質。
背景技術
隨著云時代的來臨,大數據(Big data)吸引了越來越多的關注,而大數據需要通過專業化的處理,才能具有更強的決策力、洞察發現力和流程優化能力,其中,在專業化處理步驟中,發現存在相關性的數據對象,以及評估相關數據的相關性程度,使數據分析人員發現大數據背后業務相關性與合理性,使數據管理人員更好的進行數據存儲規劃,使數倉建設人員提供更好的參考數據,顯得尤為重要。
在現有技術中,對數據的相關性分析多為人工分析,通常僅是面對幾個數據文檔,或者在某個特定業務場景下進行分析,而大數據具有數據庫多、表多、數據字段海量和數據冗余的特點,人工分析的數據相關性的方法并不適合于分析大數據場景下的數據。
因此,提供一種相關數據的確定方法、裝置、計算機設備和存儲介質,以確定大數據場景下的相關數據,成為本領域亟需解決的技術問題。
發明內容
本發明的目的是提供一種相關數據的確定方法、裝置、計算機設備和存儲介質,用于解決現有技術中上述的技術問題。
一方面,為實現上述目的,本發明提供了一種相關數據的確定方法。
該相關數據的確定方法包括:獲取待分析的數據對象集,其中,數據對象集包括多個數據對象;計算數據對象的數據畫像信息;根據數據畫像信息對數據對象集進行聚類分析,得到若干聚類簇,其中,聚類簇包括若干數據對象;計算同一聚類簇中數據對象之間的內容相似值;計算同一聚類簇中數據對象之間的語義相似值;以及在同一聚類簇中,根據內容相似值和語義相似值確定相關數據,其中,內容相似值越大、語義相似值越大的數據對象互為相關數據的概率越大。
進一步地,計算數據對象的數據畫像信息的步驟包括:計算數據對象的字符串長度、單詞數、唯一值、非空值、最大長度、最小長度和值分布。
進一步地,計算同一聚類簇中數據對象之間的內容相似值的步驟包括:使用數據對象的值分布計算數據對象之間的內容相似值。
進一步地,計算同一聚類簇中任意兩個數據對象之間的語義相似值的步驟包括:分別獲取兩個數據對象的語義信息,其中,語義信息包括數據對象的元數據名稱和組內元數據名稱;根據語義信息計算兩個數據對象之間的語義相似值。
進一步地,根據語義信息計算兩個數據對象之間的語義相似值的步驟包括:對數據對象的元數據名稱和組內元數據名稱分別進行分詞處理和標準化處理,得到數據對象對應的詞元素;采用WordNet模型計算兩個數據對象對應的詞元素之間的語義相似性;根據兩個數據對象對應的詞元素之間的語義相似性計算兩個數據對象之間的語義相似值。
進一步地,根據數據畫像信息對數據對象集進行聚類分析,得到若干聚類簇的步驟包括:對數據畫像信息進行歸一化處理,得到標準數據畫像信息;根據標準數據畫像信息的歐氏距離對數據對象集進行聚類分析,得到若干聚類簇。
進一步地,在同一聚類簇中,根據內容相似值和語義相似值確定相關數據的步驟包括:計算內容相似值與第一權重的乘積,得到第一乘積;計算語義相似值與第二權重的乘積,得到第二乘積;計算第一乘積和第二乘積的和得到綜合相似值;當綜合相似值大于預設相似值時,綜合相似值對應的數據對象互為相關數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司,未經奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911418068.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





