[發明專利]基于DE-MIC算法檢測多變量相關性方法和系統在審
| 申請號: | 201910490368.3 | 申請日: | 2019-06-06 |
| 公開(公告)號: | CN110275909A | 公開(公告)日: | 2019-09-24 |
| 發明(設計)人: | 王莉;孟燕霞;鄭婷一 | 申請(專利權)人: | 太原理工大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F17/16 |
| 代理公司: | 太原高欣科創專利代理事務所(普通合伙) 14109 | 代理人: | 冷錦超;安麗榮 |
| 地址: | 030024 *** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多變量 算法檢測 度量 歸并 大規模數據 最大信息熵 方法使用 矩陣計算 特征矩陣 原始數據 最大信息 相關度 信息熵 降維 算法 集合 檢測 應用 | ||
1.基于DE-MIC算法檢測多變量相關性方法,其特征在于,包括如下步驟:
S1降維,基于DE-MIC算法,將一個高維數據集合降到一個低維的數據集合,并利用DE-MIC算法來度量低維變量間的相關度,得到任意兩低維變量間相關系數值;
S2,根據步驟S1得到的任意低維變量間相關系數值,構造有限最大特征矩陣;
S3,利用有限最大特征矩陣,計算大規模數據中多變量間的非線性最大信息熵,度量多變量間的相關度。
2.根據權利要求1所述的基于DE-MIC算法檢測多變量相關性方法,其特征在于,所述降維利用DE-MIC算法來進行檢測,將多變量數據集合降維到一個兩變量數據集合。
3.根據權利要求2所述的基于DE-MIC算法檢測多變量相關性方法,其特征在于,所述DE-MIC算法為:
式中,D為窮盡所有兩變量的數據集合,x和y分別為對數據集進行網格劃分的格子數,M(D)x,y為數據集D上特征矩陣,其中包含第x行y列元素的值,特征矩陣中每個元素的值的取值范圍都是[0,1],I*(D,x,y)表示在數據集合上繪制的散點圖,進行網格劃分后,不同劃分情況下得到的最大互信息值,logmin{x,y}表示得到網格劃分中x,y的最小值,DE-MIC(D)表示特征矩陣M(D)x,y中的最大值作為衡量任意兩變量間相關性的系數值,因此該值也為[0,1]之間,B(n)=na,n為數據集D的數據規模,常數a的取值根據經驗或規模設置,xy≤B(n)為約束特征矩陣中網格劃分的最大劃分數。
4.根據權利要求2所述的基于DE-MIC算法檢測多變量相關性方法,其特征在于,所述有限最大特征矩陣公式為:
式中,R表示通過得到任意兩變量間的DE-MIC值所構造的特征矩陣,xi,xj表示任意兩變量,M表示M元變量,ri,j(1≤i≤M,1≤j≤M)表示第i個變量與第j個變量的DE-MIC值,DE-MIC(xi,xi)表示第i個變量與第i個變量的DE-MIC值,DE-MIC(x2,x1)表示第2個變量與第1個變量的DE-MIC值,DE-MIC(x1,x2)表示第1個變量與第2個變量的DE-MIC值,DE-MIC(xM,x1)表示第M個變量與第1個變量的DE-MIC值。
5.根據權利要求2所述的基于DE-MIC算法檢測多變量相關性方法,其特征在于,所述步驟S3包括如下步驟:
S31,通過步驟S2計算得到R的特征根根據特征根計算多變量信息熵的函數公式如下:
式中,H*(D)表示信息熵函數,D為窮盡所有兩變量的數據集合,i表示第i個變量,M表示M元變量,表示正特征根;
S32,NMIE取值范圍為[0,1]間,用于衡量多變量相關度,當相關程度越強,NMIE值越接近于1,相關程度越弱,越接近于0,公式如下:
式中,NMIE表示度量多變量間相關程度值,D為窮盡所有兩變量的數據集合,i表示第i個變量,M表示M元變量,表示特征矩陣R的特征根。
6.權利要求1-5任一所述的基于DE-MIC算法檢測多變量相關性方法的應用,其特征在于,用于對多變量數據集合進行相關性檢測、普適性分析和均勻性分析。
7.權利要求1-5任一所述的基于DE-MIC算法檢測多變量相關性方法所用的系統,包括
1),初始數據降維模塊;
2),DE-MIC算法計算模塊;
3),有限最大特征矩陣模塊;
4),多變量相關性算法計算模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原理工大學,未經太原理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910490368.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于大數據的醫療數據挖掘系統和方法
- 下一篇:一種不平衡數據集的過采樣方法





