[發明專利]一種二分類器的訓練方法、裝置、及計算機設備在審
| 申請號: | 201810658424.5 | 申請日: | 2018-06-25 |
| 公開(公告)號: | CN109086791A | 公開(公告)日: | 2018-12-25 |
| 發明(設計)人: | 宋博文 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練樣本 弱分類器 二分類 計算機設備 訓練樣本集 分類結果 權重 受試者工作特征 迭代處理 迭代結束 學習算法 樣本子集 一次迭代 分類 迭代 預設 整合 | ||
公開了一種二分類器的訓練方法、裝置及計算機設備,該方法包括:利用以下步驟進行迭代處理,直至迭代次數達到預設的次數閾值:利用設定的學習算法與訓練樣本集進行訓練,得到弱分類器,所述訓練樣本集中包括多個訓練樣本,所述多個訓練樣本中的任一訓練樣本具有權重;基于所述弱分類器的受試者工作特征ROC曲線確定所述弱分類器的分類閾值;得到所述弱分類器利用所述分類閾值對所述訓練樣本集的指定部分樣本子集中任一訓練樣本的分類結果;基于所述分類結果對所述多個訓練樣本中的任一訓練樣本的權重進行調整;迭代結束后,對每一次迭代得到的弱分類器進行整合得到二分類器。
技術領域
本說明書實施例涉及數據處理技術領域,尤其涉及一種二分類器的訓練方法、裝置、及計算機設備。
背景技術
傳統的機器學習模型都是建立在訓練數據和測試數據服從相同的數據分布的基礎上,例如有監督學習,但是,在諸多情況下,訓練數據和測試數據并不滿足服從相同的數據分布這一假設,從而,利用基于訓練數據所得到的二分類器對測試數據進行分類的結果很可能并不準確,基于此,相關技術中提出了TraAdaboost算法,在該算法中,根據每次訓練集中每個樣本的分類是否正確,以及上次總體分類的錯誤率,來調整每個樣本的權重,以實現通過改變數據分布得到一個分類效果更佳的二分類器。
然而,若訓練數據中正類樣本和負類樣本各自的比例并不均衡,例如,正類樣本占1%,負類樣本占99%,那么,上述TraAdaboost算法則傾向于將少數類樣本劃分到多數類樣本,以保證訓練得出的二分類器在整體上具有較高的分類準確率,由此可見,針對不平衡的訓練數據,利用TraAdaboost算法所訓練出的二分類模型的性能欠佳。
發明內容
針對上述技術問題,本說明書實施例提供一種二分類器的訓練方法、裝置、及計算機設備,技術方案如下:
根據本說明書實施例的第一方面,提供一種二分類器的訓練方法,所述方法包括:
利用以下步驟進行迭代處理,直至迭代次數達到預設的次數閾值:
利用設定的學習算法與訓練樣本集進行訓練,得到弱分類器,所述訓練樣本集中包括多個訓練樣本,所述多個訓練樣本中的任一訓練樣本具有權重;
基于所述弱分類器的受試者工作特征ROC曲線確定所述弱分類器的分類閾值;
得到所述弱分類器利用所述分類閾值對所述訓練樣本集的指定部分樣本子集中任一訓練樣本的分類結果;
基于所述分類結果對所述多個訓練樣本中的任一訓練樣本的權重進行調整;
迭代結束后,對每一次迭代得到的弱分類器進行整合得到二分類器。
根據本說明書實施例的第二方面,提供一種二分類器的訓練裝置,所述裝置包括:
訓練模塊,用于利用設定的學習算法與訓練樣本集進行訓練,得到弱分類器,所述訓練樣本集中包括多個訓練樣本,所述多個訓練樣本中的任一訓練樣本具有權重;
確定模塊,用于基于所述弱分類器的ROC曲線確定所述弱分類器的分類閾值;
分類模塊,用于得到所述弱分類器利用所述分類閾值對所述訓練樣本集的指定部分樣本子集中任一訓練樣本的分類結果;
調整模塊,用于基于所述分類結果對所述多個訓練樣本中的任一訓練樣本的權重進行調整;
所述訓練模塊、所述確定模塊,所述分類模塊,以及所述調整模塊相互配合實現迭代處理,直至滿足預設的迭代停止條件;
整合模塊,用于迭代結束后,對每一次迭代得到的弱分類器進行整合得到二分類器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810658424.5/2.html,轉載請聲明來源鉆瓜專利網。





