[發(fā)明專利]一種特征屬性約簡方法在審
| 申請?zhí)枺?/td> | 202111005912.4 | 申請日: | 2021-08-30 |
| 公開(公告)號: | CN113780388A | 公開(公告)日: | 2021-12-10 |
| 發(fā)明(設計)人: | 劉瑤;喬付;郝博麟;劉忠艷;彭增焰;姜微 | 申請(專利權(quán))人: | 嶺南師范學院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 哈爾濱龍科專利代理有限公司 23206 | 代理人: | 李長春 |
| 地址: | 524048 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特征 屬性 方法 | ||
本發(fā)明公開了一種特征屬性約簡方法,屬于模式識別和機器學習領域,從條件屬性集合中移除一個特征屬性時,通過計算依賴度的變化得到該特征屬性重要性的度量,依賴度的變化越高,該特征屬性就越重要,再通過比較特征屬性集產(chǎn)生的等價關系,刪除特征屬性使約簡集能夠提供與原始的決策屬性具有相同的預測能力,該特征屬性約簡集合為條件特征屬性集的最小基數(shù)子集,該特征屬性約簡方法能為特征屬性提取算法降低時間和空間復雜度。
技術領域
本發(fā)明屬于機器學習、模式識別和信號處理領域,特指特征屬性提取。
技術背景
特征屬性提取是指選擇那些最能預測給定結(jié)果的輸入屬性或特征,在機器學習、模式識別和信號處理等許多領域都遇到的問題,與其他降維方法不同,特征屬性約簡在降維后仍然保留屬性的原始含義,這種方法應用于涉及包含大量屬性(數(shù)萬個數(shù)量級)的數(shù)據(jù)集的任務中,對于一些學習算法來說,這些屬性可能無法進一步處理,因此,提供一種特征屬性約簡方法降低學習算法的時間和空間復雜度。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種特征屬性約簡方法,以解決模式識別和機器學習領域中特征提取問題。
本發(fā)明的方法從條件屬性集合中移除一個特征屬性時,通過計算依賴度的變化得到該特征屬性重要性的度量,依賴度的變化越高,該特征屬性就越重要,再通過比較特征屬性集產(chǎn)生的等價關系,刪除特征屬性使約簡集能夠提供與原始的決策屬性具有相同的預測能力,該特征屬性約簡集合為條件特征屬性集的最小基數(shù)子集。
本發(fā)明為實現(xiàn)上述目的,采取的技術方案如下:
一種特征屬性約簡方法,該方法具體為:一個信息系統(tǒng)表示為:
DT=U,A (1)
式(1)中,全域U是一個非空有限樣本集{x1,x2,L xn},A是一個特征屬性集合{a1,a2,L am},n和m是任意自然數(shù);
當任意的條件特征屬性時,有一個相關的等價關系IND(C)表示為:
U/IND(C)稱為由IND(C)產(chǎn)生的劃分,可計算為:
式(3)中的操作用任意兩個集合A和B來定義:
令:(x,y)∈IND(C),則不能用條件特征屬性C來區(qū)分x和y,可以用[x]C表示條件特征屬性C不可分屬性的等價類。
令:X可以近似使用僅包含條件特征屬性C的信息,并通過構(gòu)造條件特征屬性C的上、下近似來近似X,計算如下:
令:條件特征屬性C和決策屬性D是全域U上的等價關系,則正區(qū)域、負區(qū)域和邊界區(qū)域定義為:
式(7)表示正區(qū)域使用條件特征屬性C的信息,能把全域U中的對象分為U/D類的集合,式(8)表示負區(qū)域使用條件特征屬性C的信息,不能把全域U中的對象分為U/D類的集合,式(9)表示邊界區(qū)域使用條件特征屬性C的信息,可能但不確定把全域U中的對象分為U/D類的集合。
決策屬性D對條件特征屬性C的依賴度表示為:
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于嶺南師范學院,未經(jīng)嶺南師范學院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111005912.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





