[發明專利]一種自適應的不平衡數據領域適應方法有效
| 申請號: | 202010582064.2 | 申請日: | 2020-06-23 |
| 公開(公告)號: | CN111753899B | 公開(公告)日: | 2023-10-17 |
| 發明(設計)人: | 朱毅;李云;強繼朋;袁運浩 | 申請(專利權)人: | 揚州大學 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/2415;G06F18/2136 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 董旭東;陳棟智 |
| 地址: | 225000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自適應 不平衡 數據 領域 適應 方法 | ||
本發明公開了一種自適應的不平衡數據領域適應方法,包括以下步驟:1)構建疊加稀疏自編碼機,學習源領域和目標領域的原始圖像數據集的向量表示;2)針對源領域和目標領域的不平衡數據,構建自適應的不平衡數據領域適應目標函數,補償數量較小的類損失,并應用最大均值差異算法將源領域和目標領域的大量無標簽數據信息代入領域適應目標函數,縮小源領域和目標領域的距離;3)用邏輯回歸模型在訓練集上訓練分類器,并在測試集上做分類預測,得到最終的領域適應結果。本發明優化了特征表示學習的性能,提升了領域適應的準確性,具有較高的魯棒性和實用性。
技術領域
本發明涉及數據挖掘研究領域,特別涉及一種自適應的不平衡數據領域適應方法。
背景技術
近年來,深度學習方法已經得到了廣泛的應用,并已經在計算機視覺、自然語言理解等領域表現出了優異的性能。然而,深度學習方法的成功應用在很大程度上依賴于訓練數據量,尤其是有標簽數據的數據量,有限的訓練數據會導致深度學習模型的性能急劇下降。目前,基于深度的領域適應模型在克服有標簽數據的需求不足方面受到了廣泛的關注,這些方法旨在利用源領域中已有的知識指導目標領域中新問題的求解,能夠有效克服傳統機器學習中數據標簽獲取和模型重新訓練的問題。領域適應的關鍵問題是如何跨越知識轉移領域的鴻溝,建立有效的目標預測模型假設。近年來,領域適應的方法主要分為兩種,第一種是將原始數據映射到一個新的特征子空間,利用域不變特征空間來提高自適應和分類性能。第二種是基于特征表示的方法,其基本思想是學習原始數據的潛在特征表示,以減少域之間的差異。
但是,上述領域適應方法的應用前提是源領域和目標域的數據是平衡的,并且實例數據量大小在數據集中的不同類別之間比較接近。換言之,現有的領域適應方法只能在跨域找到平衡解,沒有考慮不平衡數據中少數類和多數類之間的標準損失。當源領域和目標域的不同類別之間數據數量不均勻分布時,(例如地震波分類的自然現象數據和癌癥診斷分類的醫學數據中,地震時的地震波和癌癥陽性診斷在大規模數據中都是極少數),如何解決自適應的不平衡數據領域適應方法問題仍然是一個棘手的任務和巨大的挑戰。
目前的不平衡數據領域適應方法主要面臨三個挑戰:(1)不平衡參數固化的問題:現有不平衡數據領域適應模型的參數都是固化的,然而實際應用場景中,不同類別數據個數很顯然不是固定的,因此,模型參數能否隨不同類別數據個數的變化而自動調整,是實際應用中最重要的問題之一;(2)不平衡的知識表示:由于不同類別的數據不平衡導致了知識不平衡,需要在訓練過程中重新權衡少數和大多數實例的貢獻,以獲得最優解;(3)標簽數據不足:現有的基于深度學習的領域適應方法大多依賴于標簽數據來傳遞知識,然而標簽數據的獲取成本十分高昂,另外也使得模型容易受到標簽噪聲信息干擾的影響,如何結合更多的信息來緩解標簽數據不足的問題,仍然是領域適應的關鍵瓶頸。
發明內容
本發明的目的是克服現有技術缺陷,提供一種自適應的不平衡數據領域適應方法,設計并實現面向領域適應的自適應不平衡數據的目標函數,并利用大量的無標簽數據信息,達到優化不平衡數據特征表示向量,提高圖像數據集分類準確度。
本發明的目的是這樣實現的:一種自適應的不平衡數據領域適應方法,包括以下步驟:
步驟1)構建疊加稀疏自編碼機,學習源領域和目標領域的原始圖像數據集的向量表示;
步驟2)針對源領域和目標領域的不平衡數據,構建自適應的不平衡數據領域適應目標函數,補償數量較小的類損失,并應用最大均值差異算法將源領域和目標領域的大量無標簽數據信息代入領域適應目標函數,縮小源領域和目標領域的距離;
步驟3)用邏輯回歸模型在訓練集上訓練分類器,并在測試集上做分類預測,得到最終的領域適應結果。
作為本發明的進一步限定,所述步驟1)具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于揚州大學,未經揚州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010582064.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





