[發明專利]一種基于最優傳輸的深度缺失聚類機器學習方法及系統在審
| 申請號: | 202110321532.5 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN112766425A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 朱信忠;徐慧英;王思為;劉新旺;趙建民 | 申請(專利權)人: | 浙江師范大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 浙江千克知識產權代理有限公司 33246 | 代理人: | 趙芳 |
| 地址: | 321004 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 最優 傳輸 深度 缺失 機器 學習方法 系統 | ||
本發明公開了一種基于最優傳輸的深度缺失聚類機器學習方法及系統,其中涉及的一種基于最優傳輸的深度缺失聚類機器學習方法,包括:S11.獲取聚類任務和目標數據樣本;S12.將獲取的目標數據樣本中的每個樣本分為可觀測特征部分和缺失特征部分,基于填充任務對缺失特征部分進行初始填充并保持可觀測特征部分的不變性,得到第一聚類結果;S13.通過最優傳輸距離和KL散度分別建立神經網絡結構中的重構損失和聚類損失,得到優化目標函數;S14.基于得到的優化目標函數將填充任務與聚類任務相融合,并對缺失特征部分的缺失值進行填充,得到最終的聚類結果。
技術領域
本發明涉及計算機視覺和模式識別技術領域,尤其涉及一種基于最優傳輸的深度缺失聚類機器學習方法及系統。
背景技術
聚類是將一組給定的數據依據它們的相似性劃分為不同的簇,該劃分使得相同簇中的樣本盡量相似,不同簇中的樣本盡量不同。常見的聚類方法包括k-means聚類、譜聚類及核k-means聚類。這些聚類算法在機器學習、模式識別、機器視覺、數據挖掘等領域被廣泛研究,并已成功應用于圖像分割、軌跡線分析、異常檢測、目標跟蹤、場景發現、社交網絡等諸多領域。
影響聚類性能的關鍵要素是如何計算樣本間的相似度,其依賴于數據特征。數據挖掘中的數據往往都不可避免的存在著缺失數據、冗余數據、不確定數據和不一致數據等多種問題。在各個領域中,缺失數據這一問題都是不容忽視的。尤其是目前的數據收集工作,已漸漸從人工搜集轉變為機器搜集。并且,由于數據量的急速膨脹,導致各種數據質量問題屢見不鮮,在這中間數據缺失尤為常見。導致數據中存在大量“空值”的因素有許多,例如數據收集條件的制約、度量方法錯誤、人工錄入時出現遺漏和違反數據約束等。在某些領域中的數據庫中缺失值比例高達50%~60%以上。這些不完整的數據不僅意味著信息空白,更重要的是它會影響后續數據挖掘抽取模式的正確性和導出規則的準確性。因此,如何處理缺失數據已成為數據清洗及數據預處理領域研究的主要問題之一。
不完整數據的存在使得利用所有數據樣本的信息進行聚類變得異常困難。一個直接的補救措施就是先用一種填補算法來填補缺失值,然后利用一種標準的聚類算法進行聚類。現有的缺失聚類算法可以分為兩大類:基于啟發式的缺失聚類算法和基于學習式的缺失聚類算法。基于啟發式的缺失聚類算法的基本思想是將缺失對象按照一定方法進行缺失值的填充,之后就可以應用已知的單視圖聚類算法。啟發式的填充算法主要基于數據的統計屬性,他們中的大多數使用統計屬性來估計缺失的功能值,例如零填充,均值填充和中位數填充。K近鄰(KNN,K-Nearest Neighbor)插補方法已被認為是用平均擬合可靠鄰居的均值來估計缺失特征的一種替代方法。此外,貝葉斯框架與先前的方法的不同,它考慮了處理不完整特征的聯合和條件分布。最受歡迎的方法是最大化期望(EM)算法,這些補全的方法在缺失比例較少時能獲得比較滿意的實驗結果。近年來,基于學習的填充方法受到了極大的關注,并成為主流。現有的工作可以分為淺層和深度學習框架。淺層代表通常假定數據是低維度的,因此應用迭代方法來恢復缺失值。隨著深度學習架構的改進,已經提出了各種深度網絡來處理不完整性。深度方法的一個理想屬性是它們可以準確地推斷數據的聯合和邊際分布。因此,生成式網絡的各種變體被提出,包括生成對抗網絡(GAN)和變體自動編碼器(VAE)。深度缺失聚類中現有的方法也是兩階段的聚類,即用深度神經網絡先學習到數據填充,再用傳統的方法進行聚類任務。
盡管現有的聚類算法在理論上和實際應用中均取得了極大成功,但所有的聚類算法都遵循一個共同的假設:數據集是完整的。無論是淺層還是深度網絡都無法直接處理缺失數據,因此現有的算法存在以下幾點不足:(1)兩階段的缺失聚類算法,即缺失數據的填充任務和聚類任務是分開的,缺失數據的填充任務無法為聚類任務服務,限制了甚至降低了聚類任務的性能。(2)當面對高維數據(例如圖像,文本)時,由于缺乏足夠的估算信息而觀察到的信息不足,因此存在的淺層和深層方法均表現不佳。這些會導致聚類任務性能急劇下降。(3)密集的計算復雜度和空間復雜度,限制了這些算法被應用于中型或大型集群任務。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江師范大學,未經浙江師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110321532.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種餐具組合堆疊裝置
- 下一篇:一種用于對用電單元進行功率調節的方法及系統





