[發明專利]區分化變量去相關的穩定學習方法及裝置在審
| 申請號: | 202010176710.5 | 申請日: | 2020-03-13 |
| 公開(公告)號: | CN111476363A | 公開(公告)日: | 2020-07-31 |
| 發明(設計)人: | 崔鵬;沈哲言 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06F17/18 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 王艷斌 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 區分 變量 相關 穩定 學習方法 裝置 | ||
本發明公開了一種區分化變量去相關的穩定學習方法及裝置,涉及機器學習領域,該方法包括:在多環境下采集無標簽數據,利用自編碼器,通過無標簽數據學習變量在跨環境下的變量穩定性;根據變量穩定性,利用樣本重加權的方法去除穩定變量與噪聲變量之間的虛假相關性;利用加權樣本的線性回歸模型,降低模型的偏差。該方法在變量去相關性的過程中差異化地考慮了不同變量之間的相關性的影響;可以無監督地從多環境中學習變量的穩定性;應用加權的線性回歸模型,降低模型偏差帶來的參數估計誤差。
技術領域
本發明涉及機器學習技術領域,特別涉及一種區分化變量去相關的穩定學習方法及裝置。
背景技術
以機器學習為代表的智能技術在法律、醫療和自動駕駛等高風險領域的應用要求模型具有很強的魯棒性和穩定性來防止意外發生。而傳統的依賴于經驗損失最優化的技術容易受到數據分布遷移所帶來的影響而不具備很強的穩定性。
新的研究結果中,主要針對存在數據選擇性偏差的情況下自變量之間的虛假相關性所帶來的挑戰,提出針對性的措施,以期改進后的模型能夠在變量分布不穩定的測試環境中取得更穩定的預測性能,相關技術中的挑戰主要有兩個,挑戰一:傳統的機器學習方法依賴訓練和測試數據產生的獨立同分布假設,而真實場景下由于數據收集的時間跨度、地緣位置和采集策略容易發生變化,故此假設不容易滿足;挑戰二:線性回歸模型是最常用的分析模型,而真實數據的產生機制可能會有偏差(比如非線性項),這部分模型偏置會被變量間的虛假相關性放大。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發明的一個目的在于提出一種區分化變量去相關的穩定學習方法,該方法在變量去相關性的過程中差異化地考慮了不同變量之間的相關性的影響;可以無監督地從多環境中學習變量的穩定性;應用加權的線性回歸模型,降低模型偏差帶來的參數估計誤差。
本發明的另一個目的在于提出一種區分化變量去相關的穩定學習裝置。
為達到上述目的,本發明一方面實施例提出了一種區分化變量去相關的穩定學習方法,包括:
S1,在多環境下采集無標簽數據,利用自編碼器,通過所述無標簽數據學習變量在跨環境下的變量穩定性;
S2,根據所述變量穩定性,利用樣本重加權的方法去除穩定變量與噪聲變量之間的虛假相關性;
S3,利用加權樣本的線性回歸模型,降低模型的偏差。
本發明實施例的區分化變量去相關的穩定學習方法,通過對多環境下的無標簽數據,學習變量穩定性,根據學習的變量穩定性,通過樣本加權去除穩定變量與噪聲變量之間的相關性,并利用加權樣本的線性回歸模型,降低模型偏差帶來的影響。該方法在變量去相關性的過程中差異化地考慮了不同變量之間的相關性的影響,可以無監督地從多環境中學習變量的穩定性,在應用加權的線性回歸模型之后,可以降低模型偏差帶來的參數估計誤差。
另外,根據本發明上述實施例的區分化變量去相關的穩定學習方法還可以具有以下附加的技術特征:
進一步地,在本發明的一個實施例中,所述S1進一步包括:在傳統的自編碼器結構中加入變量差分層表征變量的穩定性,在多環境下采集所述無標簽數據后,在主環境下學習所述自編碼器表征,固定表征通過多環境的數據學習變量的穩定性得分,得到所述變量穩定性。
進一步地,在本發明的一個實施例中,所述S2進一步包括:
通過梯度下降優化算法學習一組新的樣本權重,使得所述穩定變量和所述噪聲變量在加權后的相關性最小化,去除所述穩定變量和所述噪聲變量之間的虛假相關。
為達到上述目的,本發明另一方面實施例提出了一種區分化變量去相關的穩定學習裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010176710.5/2.html,轉載請聲明來源鉆瓜專利網。





