[發明專利]一種面向數據驅動建模的主動學習方法在審
| 申請號: | 201910332775.1 | 申請日: | 2019-04-24 |
| 公開(公告)號: | CN110070131A | 公開(公告)日: | 2019-07-30 |
| 發明(設計)人: | 劉宏剛;李峰;劉紅麗 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 劉小峰 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基準分類 預測結果 不確定性 閾值條件 訓練集 剩余樣本 數據驅動 主動學習 建模 排序 樣本 經濟成本 隨機選擇 選擇功能 循環重復 訓練樣本 比對 響應 預測 | ||
一種面向數據驅動建模的主動學習方法,包括以下步驟:1.從訓練集中隨機選擇K個樣本構成初始訓練集,并利用初始訓練集對基準分類器訓練;2.利用訓練后的基準分類器對訓練集中剩余樣本進行預測得到預測結果,并與閾值條件比對;3.響應于預測結果不滿足閾值條件,基于預測結果計算基準分類器對剩余樣本的不確定性,并將不確定性由高到低排序;4.將排序中不確定性最高的前N個樣本加入到初始訓練集中;5.利用初始訓練集對基準分類器訓練;6.循環重復上述步驟2到步驟5,直到在步驟2中預測結果滿足閾值條件。通過本發明的方法,能夠實現高價值訓練樣本的選擇功能,并且在降低訓練時間、經濟成本的同時提升模型的泛化能力。
技術領域
本領域涉及計算機領域,并且更具體地涉及一種面向數據驅動建模的主動學習方法。
背景技術
在人工智能方法實際應用中,經常面臨計算資源有限及時間限制要求等實際難題,訓練樣本數量是影響以上兩個難題的關鍵因素。主動學習算法能有效使用更有價值訓練樣本進行模型訓練,對于減少訓練模型所需計算與時間資源、專家標注代價及成本等方面有重要作用,是人工智能方向的研究課題之一,在多個領域如文檔分類及信息提取、圖像檢索、入侵檢測領域具有很高的應用價值。
數據驅動建模是指采集海量數據并將數據組織形成信息,之后對相關信息進行整合和提取,在大量數據的基礎上訓練自動化的決策模型。在利用海量數據建立模型過程中,存在以下兩個實際問題(1)真實數據中存在大量的未標記樣本數據,進行模型建立前需要大量專家進行標注工作(2)隨著深度學習模型復雜度越來越高,無疑需要耗費大量時間及計算資源利用海量數據建模。主動學習算法能夠從海量未標記樣本或未訓練樣本中挑選更有價值樣本,從訓練時間、空間、經濟成本等多方面對數據驅動建模方法進行深度優化。
主動學習算法根據未訓練樣本的獲取方式不同,分為基于流的主動學習算法及基于池的主動學習兩種方法。在基于流的主動學習算法中,未訓練樣本依次提供給樣本選擇算法進行判斷選擇,其未訓練樣本間不能進行相互比較。在基于池的主動學習算法中,則是從未訓練的大量樣本中,根據樣本選擇策略選擇有價值樣本進行模型更新,其中樣本選擇策略主要包括以下三種方法。
基于不確定度縮減方法:選擇當前基準分類器最不能確定其分類的樣本進行訓練,這種方法以信息熵作為衡量樣本所含信息量大小的度量。這種方法可以任意選擇合適的基準分類器如邏輯回歸、SVM、GBDT等模型,但有可能選擇到孤立點。
基于期望誤差降低的方法:首先定義一種損失函數,用來估計分類器的期望誤差,然后對未訓練樣本集合的每一個樣本,估計將其加入訓練集合給當前分類器帶來的損失,選擇能夠使期望誤差最低的樣本進行標注。
基于版本空間縮減的方法:使用可獲得的訓練樣本集合訓練一組分類器,這組分類器構成委員會,然后由委員會來分類候選樣本集合中的未標記樣本,選擇出委員會分類“最不一致”的樣本。判斷“最不一致”的常用方法有投票熵、KL散度等。
總體而言,主動學習算法現有的技術存在以下不足:
1)多分類問題樣本選擇過程中存在選擇到孤立點情形;
2)樣本選擇過程中存在冗余樣本;
3)在處理多類分類問題時主動學習算法選擇樣本質量較差;
4)對于給定的任意樣本集,無法保證在選出的訓練集中每類樣本的占比基本均衡。
針對上述不足,不斷提高主動學習算法的性能與魯棒性,是亟需解決的難題。
發明內容
有鑒于此,本發明實施例的目的在于提出一種面向數據驅動建模的主動學習方法,能夠實現高價值訓練樣本的選擇功能,并且在降低訓練時間、經濟成本的同時提升模型的泛化能力。
基于上述目的,本發明的實施例的一個方面提供了一種面向數據驅動建模的主動學習方法,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910332775.1/2.html,轉載請聲明來源鉆瓜專利網。





