[發明專利]采用最小最大概率機的分離概率的有監督線性降維方法在審
| 申請號: | 201810371801.7 | 申請日: | 2018-04-24 |
| 公開(公告)號: | CN108845974A | 公開(公告)日: | 2018-11-20 |
| 發明(設計)人: | 宋士吉;鞏延上;張玉利;黃高 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/15 | 分類號: | G06F17/15 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 廖元秋 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 線性降維 最大概率 概率 降維 投影矩陣 投影向量 計算機機器學習 共軛梯度法 距離度量 統計學習 應用效果 區分度 樣本集 監督 多維 維度 樣本 輸出 分類 優化 保證 | ||
本發明提出一種采用最小最大概率機的分離概率的有監督線性降維方法,屬于計算機機器學習和統計學習技術領域。該方法首先建立采用最小最大概率機的分離概率的有監督線性降維模型,模型的輸入為具有多個維度和類別的樣本集,輸出為投影矩陣;當降維到1維時,屬于單一投影向量目標;當降維到多維時,屬于多個投影向量目標;本發明使用樣本間的分離概率作為類別之間的距離度量,并使用了共軛梯度法進行優化,最終得到保證每一個類別對都盡量具有最大的分離概率的投影矩陣。本發明能夠提高數據的可區分度以及后續分類的準確性和效率,在多類降維問題上能夠達到很好的應用效果。
技術領域
本發明屬于計算機機器學習和統計學習技術領域,特別涉及一種采用最小最大概率機的分離概率的有監督線性降維方法。
背景技術
在機器學習和度量學習領域中,降維方法的作用是非常重要的。降維方法可以將高維的數據映射到一個低維的子空間中,同時盡可能地保留了樣本之間(非監督學習)或者類別之間(有監督學習)的分離信息。它經常用作數據的預處理,以提高后續的數據分析的效果,如分類器、數據可視化和回歸等。
線性判別分析(LDA)是經典的基于有監督距離度量的特征提取和降維方法。LDA起初由Fisher等提出用于二分類問題中,然后被Rao等擴展到了多類問題。它通過最大化總類間離散度同時最小化總類內離散度,來得到一個最優的投影矩陣。在過去的幾十年內,有許多研究人員對LDA進行了改進,來提高它在一些特定數據集上的準確度,比如使用罰函數、遞歸線性判別、判別學習分析等方法。但是這些降維方法一般是從全局角度上分析了所有不同類的離散度,并沒有分別考慮每一個類別對的情況。當應用到多類問題的場景中時,有一些類別對可能會處理的不合適。比如,LDA雖然可以用到多類問題的降維場景中,但是有一個內在的缺點:它求得投影矩陣依賴的是總類內離散度和總類間離散度,其進行距離度量的形式,我們稱之為“平方和”形式。LDA的目標函數將所有的平方形式的類間距離和類內距離分別直接相加,其平方函數曲線的性質可能會導致對一些需要重點優化的類別對的忽視,反而去優化已經足夠容易相互分離的類別對。比如將LDA應用到不同的類間距的值相差很大的情景時,就會出現不理想的結果。
為了克服此形式帶來的缺點,近些年來出現了許多改進LDA應用于多類中的效果的降維方法。這些改進方法通常會有一個共同的特點,即考慮了“成對”的場景,如樣本對或類別對等,來克服上述問題。考慮“成對”情況的優勢在于,能夠針對不同的樣本對或類別對,有針對性地做出不同的處理,使得降維方法的結果既能夠獲得全局的高分離度,也能夠達到某些局部的高分離度。這樣會使得某些效果不好的狀況得到更深層次的優化。但是,這些方法雖然在一定程度上克服了LDA的多類場景下的不足之處,但是通常是啟發式的,它們的目標函數缺乏一個準確的實際意義。
發明內容
本發明的目的是為克服已有技術的不足之處,提出一種采用最小最大概率機的分離概率的有監督線性降維方法。本發明首次實現了使用樣本間的分離概率作為類別之間距離度量,,能夠提高數據的可區分度以及后續分類的準確性和效率,在多類降維問題上能夠達到很好的應用效果。
本發明提出一種采用最小最大概率機的分離概率的有監督線性降維方法,其特征在于,該方法包括以下步驟:
1)建立采用最小最大概率機的分離概率的有監督線性降維DR-MPM模型;
令模型的輸入為樣本集樣本集中第i個個樣本xi對應的類別標簽記為ci,i=1,2,...,n,樣本集的類別總數為K,模型的輸出為投影矩陣wi為構成投影矩陣的第i個投影向量;其中,n為輸入的樣本集中的樣本序號,d為樣本原始維數,p為目標維數,p<d,R表示實數集;
2)對p的取值進行判定:若p=1,則為單一投影向量目標,進入步驟3);若p>1,則為多個投影向量目標,進入步驟4);
3)單一投影向量目標下的降維方法;具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810371801.7/2.html,轉載請聲明來源鉆瓜專利網。





