[發明專利]一種單變量與多變量間最大信息系數近似處理方法及系統在審
| 申請號: | 201910543901.8 | 申請日: | 2019-06-21 |
| 公開(公告)號: | CN110427401A | 公開(公告)日: | 2019-11-08 |
| 發明(設計)人: | 張軍英;王月;楊利英 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458 |
| 代理公司: | 西安長和專利代理有限公司 61227 | 代理人: | 李霞 |
| 地址: | 710071 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 最大信息 單變量 多變量 系數近似 數據挖掘技術 最大互信息 多個變量 系數計算 系數算法 大數據 歸一化 多維 網格 應用 | ||
本發明屬于數據挖掘技術領域,公開了一種在大數據集中計算單變量與多變量間的最大信息系數的方法及系統,用以計算單個變量Y與m個變量(X1,X2,...,Xm)之間的最大信息系數。該方法在于找尋多維(m+1維)空間的最優網格劃分:首先利用單變量和m?1個變量的最大信息系數算法固定m個變量(X1,X2,...,Xm)的劃分,之后再對Y變量進行劃分,進而找到對于變量Y與m個變量(X1,X2,...,Xm)較為合適的劃分,之后計算歸一化后的最大互信息值并作為最大信息系數數值。本發明能夠解決現有的計算最大信息系數計算方法無法應用到計算單變量與多變量之間最大信息系數上的問題,本發明所設計的一種單變量與多變量間最大信息系數近似處理方法及系統,能夠計算單個變量與多個變量之間的最大信息系數數值。
技術領域
本發明屬于數據挖掘技術領域,尤其涉及一種單變量與多變量間最大信息系數近似處理方法及系統。
背景技術
事物的普遍聯系使得從數據中挖掘變量之間的相關性成為一項應用面很廣的基礎性工作,比如基因與基因之間的相關性、基因與癌癥的相關性、人口增長與出生率的相關性、飲食結構與出生率的相關性、飲食結構和癌癥發生率共同影響人口增長狀況的相關性等。
目前,用來衡量變量之間相關程度的統計量主要有以下幾種。皮爾遜相關系數(Pearson Correlation),它衡量兩個變量在一條線上的匹配程度,只能檢測變量之間的統計線性關系,對于統計非線性關系顯得無能為力;斯皮爾曼相關系數(SpearmanCorrelation),它衡量兩個變量間是否單調相關,但對較為復雜的統計關系不敏感,無法檢測;互信息(Mutual Information),它涉及到變量之間的聯合概率密度和邊緣概率密度,計算難度大,同時對較為復雜的統計關系不敏感;最大信息系數(Maximal InformationCoefficient,MIC),它擁有廣泛性和均勻性這兩個優良性質,但是精確解的計算難度大,同時只涉及兩邊量間的相關性問題。
在評價變量之間相關性問題上,現有的最接近本發明的技術是最大信息系數。由于無法利用其定義進行計算,通過計算只能獲得其近似值,且是密集型計算,需借助現代計算機,且精度越高要求的計算量越大。
計算兩變量之間最大信息系數的計算是基于互信息計算的,其核心步驟是對數據在二維空間上構成的散點圖進行網格劃分。以下是計算的主要步驟:
對于給定的兩個變量,在二維空間內生成散點圖;
給定X軸和Y軸的劃分數s和t,對散點圖進行網格劃分,計算在該種網格劃分下的變量之間的互信息值;不斷改變網格劃分的位置,并計算互信息,得到在該網格劃分數量下的變量之間最大的互信息值,并進行歸一化處理。
改變對于網格劃分的s和t值,記錄其中最大的歸一化后的互信息值作為變量之間的最大信息系數數值。
網格劃分方式的確定需要綜合網格劃分的數量和網格劃分的位置。在遍歷所有的網格劃分方式以尋找最大的歸一化后的互信息值即最大信息系數值時,計算量非常大。現有能計算兩個變量間最大信息系數的近似算法主要是引入了優化過程,降低了計算復雜度。
針對多變量之間的相關性,2016年提出了多變量最大信息系數的定義,計算一組變量之間的最大信息系數,其與本發明中單變量與一組變量之間的最大信息系數,定義上不同。二者都給出最大信息系數,但前者給出的是一組變量之間的,后者給出的是一個變量與其它一組變量間的。
現有技術存在的問題是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910543901.8/2.html,轉載請聲明來源鉆瓜專利網。





