[發(fā)明專利]基于貝葉斯非參數PCA的高維樣本數據維度降低方法在審
| 申請?zhí)枺?/td> | 201810470715.1 | 申請日: | 2018-05-17 |
| 公開(公告)號: | CN108596278A | 公開(公告)日: | 2018-09-28 |
| 發(fā)明(設計)人: | 吳駿;李振興;曹萌;張雷;王崇駿 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本數據 維度降低 貝葉斯 非參數 高維 降維 模型訓練 采樣 維度 原始數據維度 預處理階段 采樣結果 高維數據 模型變量 收斂條件 輸出階段 數據降維 自動選擇 區(qū)分度 數據集 輸出 應用 | ||
本發(fā)明公開了一種基于貝葉斯非參數PCA的高維樣本數據維度降低方法,包括如下步驟:1)數據集預處理階段;2)降維維度設置階段:設置合適的維度進行樣本數據的降維工作;3)模型訓練階段:使用吉布斯采樣方法對模型變量進行采樣,并判斷模型是否達到收斂條件;4)結果輸出階段:根據模型訓練結束后的各個變量的采樣結果,得到原始數據維度降低后的值,并輸出該值。本發(fā)明將貝葉斯非參數方法與PCA方法結合,應用于高維樣本數據的維度降低方面,該方法有著數據降維準確、降維后數據區(qū)分度高、以及能夠自動選擇合適的維度進行高維數據的降維等優(yōu)點。
技術領域
本發(fā)明主要涉及一種基于貝葉斯非參數PCA的高維樣本數據維度降低方法。主要針對高 維數據維度降低中的模型選擇問題,給出一種快速的解決方案。
背景技術
在統計學、機器學習和信息論等學科中,維度降低(Dimension Reduction)是通過獲得一組 “主變量”來減少所考慮的隨機變量特征數量的過程,它主要分為特征選擇和特征提取。特征 選擇技術的目的是試圖找到原始變量特征集合的子集,利用子集中的特征近似原始特征集合; 特征提取技術則是將高維空間中的數據轉換成低維空間中,實現特征的提取過程。維度降低 對于解決維度災難(Curse of Dimensionality)問題來說十分重要,即通過某種手段,將原始高維 數據轉換成低維空間中的數據,并且在轉換過程中,保持原始數據的重要信息不丟失,從而 解決高維數據容易造成數據稀疏、計算困難等問題。
作為特征提取技術中一種重要的方法,主成分分析法(PCA)在維度降低方面有著重要的作 用。PCA使用正交變換將一組可能相關的變量的觀察值轉換為一組線性不相關變量的值,這 種線性不相關的變量被稱為“主成分”。在實踐中,首先構造數據的協方差矩陣,同時計算該 矩陣上的特征向量和特征值;然后通過選取最大幾個特征值所對應的特征向量作為“主成分”, 來重建原始數據。
然而,對于具有隱含標簽信息的數據集來說,直接使用PCA方法,或許會導致數據維度 降低過程中,丟失數據的潛在類別信息,例如手寫數字數據集。同時該方法也無法直接對確 定降維后的數據維度值,涉及到模型選擇問題。
發(fā)明內容
本發(fā)明主要解決的技術問題是,實現對原始樣本維度降低的同時,能夠很好的解決模型 選擇問題,并實現樣本隱含標簽信息挖掘的工作,使得在維度降低過程中,保留了原始數據 的潛在類別信息。
技術方案:為實現上述目的,本發(fā)明采用的技術方案為:
一種基于貝葉斯非參數PCA的高維樣本數據維度降低方法,包括如下步驟:
步驟1,數據集預處理:將原始高維樣本數據按照統一格式處理,對統一處理好的高 維樣本數據進行去噪聲,以及正則化操作;
步驟2,降維維度設置:
步驟3,模型訓練:使用吉布斯采樣方法模型中的變量進行采樣,方法如下:
步驟3a1)初始化采樣算法平臺,利用機器學習方法,構建從條件概率分布中采樣的程序, 供BNPP模型使用;
步驟3a2)隨機初始化BNPP模型中的變量W、變量Z,變量θ、變量α以及變量τ。這些變量之間的關系滿足:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810470715.1/2.html,轉載請聲明來源鉆瓜專利網。





