[發明專利]基于DE-MIC算法檢測多變量相關性方法和系統在審
| 申請號: | 201910490368.3 | 申請日: | 2019-06-06 |
| 公開(公告)號: | CN110275909A | 公開(公告)日: | 2019-09-24 |
| 發明(設計)人: | 王莉;孟燕霞;鄭婷一 | 申請(專利權)人: | 太原理工大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F17/16 |
| 代理公司: | 太原高欣科創專利代理事務所(普通合伙) 14109 | 代理人: | 冷錦超;安麗榮 |
| 地址: | 030024 *** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 多變量 算法檢測 度量 歸并 大規模數據 最大信息熵 方法使用 矩陣計算 特征矩陣 原始數據 最大信息 相關度 信息熵 降維 算法 集合 檢測 應用 | ||
本發明提供了基于DE?MIC算法檢測多變量相關性方法和系統,所述的方法包括:S1,基于DE?MIC算法將原始數據集合中的多變量歸并為兩變量并且窮盡全部歸并,這實質是一個降維的過程;S2,根據得到的任意兩變量間相關系數值構造有限最大特征矩陣;S3,利用該矩陣計算大規模數據中多變量間的非線性最大信息熵,以度量多變量間相關度。本發明所述的檢測多變量相關性的方法使用信息熵以及最大信息系數的方式來度量多變量間關系,能夠得到更廣泛的應用。
技術領域
本發明基于DE-MIC算法檢測多變量相關性方法和系統,屬于信息技術服務領域。
背景技術
現實的大數據相關性分析,除了需要檢測兩變量間相關性外,還需要檢測多變量間相關性,如鐵路事故除了與設備有關外,可能還與軌道、信號、碰撞等因素有關,吹氣球的大小除了與肺活量有關外,可能還與性別、年齡、氣球的材質等因素有關,一個人的幸福感除了與收入有關外,可能還與性別、家庭成員及結構、人際圈大小等因素有關。那么,對于檢測多變量相關性的分析探討也有重要的科學意義及價值。
Reshef等主要給出度量兩變量相關性的最大信息系數MIC算法的理論、求解方式,且第三章也只是對于MIC算法當度量兩變量相關關系時,花費時間較長這一問題進行了改進,并未提出檢測多變量相關性理論以及求解過程,主要困難有兩點:首先,對于Reshef等提出的最大信息系數MIC算法來說,主要是對兩變量所在的平面進行網格劃分,獲得網格中每個單元格的互信息值,尋找最大互信息,最后,進行歸一化后的最大值作為度量兩變量間相關關系值。因此對于變量數不止一個的情況下,Reshef等給出的MIC算法中網格劃分方式將不能拓展到多個變量情況,因此也無法進行度量多變量間的關系。其次,對于兩變量關系的挖掘,尚且可以使用簡單的窮舉算法遍歷所有變量對以及網格數,分析結果然后對其進行評估,但對于多變量來說,遍歷所有的變量對將會獲得指數級的候選集,則不可能構造多元遞歸公式,使得無法采用動態規劃找到變量間最佳網格劃分方式。
由于基于動態均分的最大信息系數算法(The Dynamic Equpartition OfMaximal Information Coefficient,DE-MIC)可以檢測各種類型變量間的相關關系,具有普適性、均勻性,且計算大規模數據時,計算時間快,效率高,但不能檢測多元變量間的相關關系。目前,關于多元變量數據集相關性檢測的研究較少,主要是相關信息熵(NonlinearCorrelation Information Entropy,NCIE),該算法是不需要參數來度量多變量相關性的統計指標,主要思想是將樣本點均勻地分成幾部分,然后評估任意兩變量間互信息值,之后建立特征矩陣,最后計算多變量間非線性相關熵,用值為[0,1]間的數來度量相關關系。NCIE算法的魯棒性得不到很好的表現,同時該算法的可靠性得不到很好的體現,這是因為在高維數據中一般會出現稀疏的數據分布。因此,針對該算法存在的不足,2011年有學者提出了基于指數熵以及NCIE算法新穎的、魯棒性的非線性相關信息熵,主要是度量多變量、非線性系統的統計指標,算法也被逐漸應用。
發明內容
本發明克服了現有技術存在的不足,提供了基于動態均分的最大信息系數檢測多變量相關性方法和系統,通過使用動態均分最大信息系數以及信息熵的方式,衡量多變量間、非線性系統的相關性。
本發明是通過以下技術方案實現的,
基于DE-MIC算法檢測多變量相關性方法,包括如下步驟:
S1降維,基于DE-MIC算法,將一個高維數據集合降到一個低維的數據集合,并利用動態均分的最大信息系數來度量低維變量間的相關度,得到任意兩低維變量間相關系數值;
S2,根據步驟S1得到的任意低維變量間相關系數值,構造有限最大特征矩陣;
S3,利用有限最大特征矩陣,計算大規模數據中多變量間的非線性最大信息熵,度量多變量間的相關度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原理工大學,未經太原理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910490368.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于大數據的醫療數據挖掘系統和方法
- 下一篇:一種不平衡數據集的過采樣方法





