[發明專利]一種基于自適應二部圖的快速魯棒無監督降維算法在審
| 申請號: | 202210796500.5 | 申請日: | 2022-07-06 |
| 公開(公告)號: | CN115329837A | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 牛凡;郭軍;石梅;許鵬飛;孫敏娟;張益姣;張奧;姚麗娜;劉曉霞 | 申請(專利權)人: | 西北大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 西安恒泰知識產權代理事務所 61216 | 代理人: | 李鄭建 |
| 地址: | 710069 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自適應 二部 快速 魯棒無 監督 算法 | ||
1.一種基于自適應二部圖的快速魯棒無監督降維算法,其特征在于,包括:
步驟1:數據集預處理:
數據集包括用于降維的樣本數據和用于測試的標簽信息,在預處理之前,根據數據集的不同進行map minmax或NormalizeFea歸一化處理;其中,mapminmax歸一化處理是將矩陣的每一行處理成[-1,1]區間;NormalizeFea歸一化處理則是根據行數對行或列進行歸一化;另外對于特征數過大的數據集通過保留92%的信息進行PCA預處理以簡化計算;
所述mapminmax的數學定義為:
Y=(YMAX-YMIN)*(X-XMIN)/(XMAX-XMIN)+YMIN;
其中,X是預處理的數據點矩陣,它被定義為一個d*n的矩陣,即X=[x1,x2,…,xn]∈Rd×n,其中d是樣本數據的特征數,n是樣本數據的數目;YMIN和YMAX是期望的每一行的最小值與最大值,XMIN和XMAX是訓練數據的最大值和最小值;
如果某行的數據全部相同,此時XMAX=XMIN,除數為0,則此時數據不變;
所述NormalizeFea的定義為:如果row=1,對數據的每一行進行歸一化,使其具有單位范數;如果row=0,對數據的每一列進行歸一化,使其具有單位范數;
步驟2:建立自適應降維與相似圖構造模型并定義用于計算高維空間到低維空間的投影矩陣的目標函數:
其中,樣本矩陣X=[x1,x2,…,xn]∈Rd×n,其中d是樣本數據特征數量,n是樣本數據點的數量,每列表示一個樣本;mk是代表點矩陣M的第k個向量;
對于第i個數據點xi,sik被定義為xi和第k個代表點之間的相似度;S={sik}∈Rn×p是由sik組成的相似圖中的權矩陣,簡稱為相似度矩陣;W∈Rd×d'(d'd)代表投影矩陣,d′表示投影子空間的維度;
||WTxi-mk||2是通過基于l2,1范數距離計算準則來計算的;γ是懲罰項的平衡參數;分母中的St=XXT,Tr(WTStW)是的跡比形式;約束表示xi的相似數據點的群集中的相似度權值之和為1;并假設局部距離越近的樣本對之間的相似度越高,即對應的sik越大;
步驟3:計算所述投影矩陣的目標函數,得到降維模型中映射矩陣的全局最優解;
步驟4:從步驟3中得到的關于映射矩陣的全局最優解,再將其通過下列公式將樣本數據投影到低維子空間中:
X_projected=XT×W
式中,XT是矩陣X的轉置;X_projected=[x1,x2,…,xn]∈Rd'×n(d'd)是樣本數據X在投影子空間的低維表示;W∈Rd×d'(d'd)代表投影矩陣;
最后,對比原始數據集中的標簽信息,對降維后的數據集進行20次的隨機初始化訓練,然后采用歐式距離度量的K-means方法對投影結果進行聚類;并使用聚類準確度和歸一化互信息這兩個指標對模型進行評估。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北大學,未經西北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210796500.5/1.html,轉載請聲明來源鉆瓜專利網。





