[發(fā)明專利]一種基于自適應Dropout非負矩陣分解的特征學習模型有效
| 申請?zhí)枺?/td> | 201611159985.8 | 申請日: | 2016-12-15 |
| 公開(公告)號: | CN106779090B | 公開(公告)日: | 2019-03-08 |
| 發(fā)明(設計)人: | 劉杰;何志成;劉才華;王嫄 | 申請(專利權)人: | 南開大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 天津佳盟知識產(chǎn)權代理有限公司 12002 | 代理人: | 侯力 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自適應 dropout 矩陣 分解 特征 學習 模型 | ||
一種基于自適應Dropout非負矩陣分解的特征學習模型。本發(fā)明基于對NMF中隱藏特征之間關系的分析,提出一種基于自適應Dropout非負矩陣分解的特征學習模型(Adaptive Dropout Non?negative Matrix Factorization),能夠主動學習隱藏特征之間的相異度,并將其轉化為隱藏特征的數(shù)據(jù)表示能力。然后在此基礎上構造概率函數(shù),并對隱藏特征進行Dropout,從而降低隱藏特征在優(yōu)化過程中的相互影響,提高隱藏特征的語義獨立性。本發(fā)明具有良好的可解釋性和泛化性,能夠在文本和圖像數(shù)據(jù)上取得明顯的性能提升,并能夠應用到已有的基于NMF的算法中。此外,本發(fā)明還具有良好的可并行性,可以部署到并行平臺上運行,用來處理大規(guī)模數(shù)據(jù)。
技術領域
本發(fā)明屬于計算機應用技術領域,具體涉及數(shù)據(jù)挖掘和機器學習,特別是基于自適應Dropout非負矩陣分解的特征學習模型。
背景技術
隨著互聯(lián)網(wǎng)技術的發(fā)展,社交網(wǎng)絡的興起,信息的獲取和分享手段越來越便捷,互聯(lián)網(wǎng)中充斥著大量的文本、圖像等非結構化數(shù)據(jù)。同時,由于數(shù)據(jù)發(fā)布時的隨意性、不規(guī)范性等問題,數(shù)據(jù)中存在大量的噪聲。即使在經(jīng)過數(shù)據(jù)清洗之后,數(shù)據(jù)也面臨著數(shù)據(jù)稀疏、維度過高等問題。因此,在進行聚類、分類、推薦等任務之前,往往先需要進行特征學習。
非負矩陣分解(Non-negative Matrix Factorization,NMF)是近年來較為流行的多變量分析模型,因其在文本和圖像等數(shù)據(jù)上具有良好的可解釋性,在數(shù)據(jù)挖掘領域有著十分廣泛的應用。通過對輸入數(shù)據(jù)矩陣和輸出隱藏特征矩陣以及系數(shù)矩陣采用非負約束,得到文本和圖像的表示,并進行文本聚類和圖像恢復[1][2]。而Cai和He等人在此基礎上,采用關系圖來約束數(shù)據(jù)在隱含空間中的表示,提高了非負矩陣分解模型在文本聚類中的性能[3]。而在[4]中,作者提出一種關系約束的矩陣分解模型,融合數(shù)據(jù)間關聯(lián)關系和數(shù)據(jù)內(nèi)容,抽取隱含特征,并在文本分類數(shù)據(jù)中取得良好效果。Takeuchi等人則將多個非負矩陣共同分解,融合用戶記錄、用戶社交關系和歌曲標簽,得到用戶和歌曲的統(tǒng)一表示,并進行歌曲推薦[5]。
然而,現(xiàn)有的NMF模型相關的研究成果,往往是通過對輸入輸出矩陣進行變換或對目標函數(shù)增加正則化因子來進行的,缺少對隱藏特征之間關系的分析和利用。在實際應用中,由于缺乏領域先驗知識和輔助信息,現(xiàn)有的基于NMF的模型中所采用的矩陣變換和正則化因子往往無法構造,或受到數(shù)據(jù)稀疏、噪聲等問題的影響,出現(xiàn)性能下降。
Dropout是一種來源于神經(jīng)網(wǎng)絡模型的優(yōu)化方法,在迭代優(yōu)化中通過隨機選取隱藏特征的子集進行更新來打破隱藏層節(jié)點之間的共現(xiàn)關系,從而防止過擬合,提升模型性能[6,7]。
從對數(shù)據(jù)重構的角度來看,NMF具有與淺層神經(jīng)網(wǎng)絡類似的結構,而Zhai等人也已經(jīng)將Dropout算法應用到了傳統(tǒng)的矩陣分解當中[10]。而自適應Dropout算法通過學習隱藏特征之間的關系,來構造新的Dropout概率函數(shù)以取代傳統(tǒng)的完全隨機Dropout函數(shù),從而實現(xiàn)性能的進一步提升[8,9]。
因此,本發(fā)明采用來自于神經(jīng)網(wǎng)絡中的Dropout方法[6,7],通過學習和利用隱藏特征之間的關系,從一個全新的角度來提升NMF模型的性能,使數(shù)據(jù)的隱藏特征表示具有更好的可解釋性。
發(fā)明內(nèi)容
本發(fā)明目的是解決現(xiàn)有NMF模型中存在的隱藏特征語義模糊和語義重疊的問題,提供一種基于自適應Dropout非負矩陣分解的特征學習模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經(jīng)南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611159985.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:測試方法和裝置
- 下一篇:一種基于超限學習機及到達距離的周期振動信號定位方法
- 一種基于自適應Dropout非負矩陣分解的特征學習模型
- 一種加入Dropout的卷積神經(jīng)網(wǎng)絡的果蔬圖像識別方法
- 非隨機Dropout正則化的卷積神經(jīng)網(wǎng)絡設計方法
- 基于Dropout約束下極限學習機對波浪運動波形分析方法
- 一種適合卷積神經(jīng)網(wǎng)絡模型的dropout方法
- 一種基于卷積神經(jīng)網(wǎng)絡的車牌字符識別方法
- 文本噪聲數(shù)據(jù)識別方法、裝置、計算機設備和存儲介質(zhì)
- 一種基于Dropout深度置信網(wǎng)絡的變壓器故障診斷方法
- 一種文本情感分析模型的優(yōu)化方法及裝置
- 一種基于高斯dropout的深度學習模型不確定度計算方法





