[發明專利]基于加權分布對齊和幾何特征對齊的無監督跨領域自適應數據標定方法及系統在審
| 申請號: | 201811547551.4 | 申請日: | 2018-12-18 |
| 公開(公告)號: | CN109635951A | 公開(公告)日: | 2019-04-16 |
| 發明(設計)人: | 何慧;張偉哲;方濱興;楊洪偉;李韜;白雅雯 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06N7/00 | 分類號: | G06N7/00 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 楊立超 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對齊 數據標定 幾何特征 加權 樣本數據 無監督 自適應 有效地 準確率 條件概率分布 概率分布 幾何結構 實驗對比 可分性 正則化 減小 樣本 挖掘 開發 | ||
基于加權分布對齊和幾何特征對齊的無監督跨領域自適應數據標定方法及系統,涉及數據標定技術領域。本發明為了有效地提高數據標定準確率。加權分布對齊能夠權衡樣本數據的邊際概率分布和條件概率分布的重要性,進而減小領域間的差異;幾何特征對齊不但能進一步挖掘領域間樣本數據的幾何特征,而且通過圖拉布拉斯正則化可以很好的保持樣本數據空間的幾何結構,進而提高樣本可分性和數據標定的準確性。通過與其他方法進行實驗對比,本發明開發的系統—基于加權分布對齊和幾何特征對齊的無監督跨領域自適應數據標定方法可以有效地提高數據標定準確率。
技術領域
本發明涉及一種無監督跨領域自適應數據標定方法及系統,涉及數據標定技術領域。
背景技術
無監督領域自適應問題是遷移學習的一類子問題,其旨在解決目標域沒有標簽數據的領域適配問題。以往的研究成果主要以基于樣本的領域適應和基于特征變換的領域適應為主。而基于特征變換的領域適應問題方法可以分為以數據為中心的方法及以子空間為中心的方法,以數據為中心的方法主要目的是找到一個一致的變換將源領域和目標領域的數據映射到一個域不變空間來減小分布差異并且保持原始空間的數據特征,但是這種方法沒有進一步利用數據的幾何特征,因為經過特征變換之后原始特征空間已經發生扭曲或者拉伸;以子空間為中心的方法只是對子空間進行處理,并沒有明確的考慮映射之后領域間的分布差異。
發明內容
本發明的目的是提供一種基于加權分布對齊和幾何特征對齊的無監督跨領域自適應數據標定方法及系統,以有效地提高數據標定準確率。
本發明為解決上述技術問題采取的技術方案是:
技術方案一:一種基于加權分布對齊和幾何特征對齊的無監督跨領域自適應數據標定方法,所述方法的實現過程為:
所述方法的輸入:Xs,Xt,Xs表示源領域樣本,已知標簽樣本;Xt表示目標領域樣本,待標記樣本;表示源領域樣本標簽;
參數:
α=1為待標記樣本方差最大化的重要性程度評估,
λ=1為廣義特征變換內部差異的重要性程度評,
β為類間方差最大化(使不同類別的樣本)重要性程度評估,
μ∈[0,1]為評估領域內邊際分布和條件分布重要性參數,
δ∈[0,1]為圖拉普拉斯正則化項(進一步挖掘邊際分布的重要性)系數,
p為樣本的最近鄰個數,
k為子空間個數,T為迭代次數;
所述方法的輸出為:
變換矩陣Φ,Ψ;Xs經過變換矩陣Φ得到的Zs,Xt經過變換矩陣Ψ得到的Zt;適應分類器:f;
步驟1、計算目標域散度矩陣St、數據的類間散度矩陣Sb、類內散度矩陣Sw,
M′s,M′t,M′st,M′ts為源領域樣本和目標領域樣本的邊際概率分布和條件概率分布的加權和與其對應的加權拉普拉斯正則化項之和(主要是通過對條件概率分布和邊際概率分布的分布特征進一步挖掘潛在知識以更好的為目標領域樣本分類提供先驗知識);
M′s,M′t,M′st,M′ts是一個矩陣中的四個分塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811547551.4/2.html,轉載請聲明來源鉆瓜專利網。





