[發明專利]一種二分類器的訓練方法、裝置、及計算機設備在審
| 申請號: | 201810658424.5 | 申請日: | 2018-06-25 |
| 公開(公告)號: | CN109086791A | 公開(公告)日: | 2018-12-25 |
| 發明(設計)人: | 宋博文 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練樣本 弱分類器 二分類 計算機設備 訓練樣本集 分類結果 權重 受試者工作特征 迭代處理 迭代結束 學習算法 樣本子集 一次迭代 分類 迭代 預設 整合 | ||
1.一種二分類器的訓練方法,所述方法包括:
利用以下步驟進行迭代處理,直至迭代次數達到預設的次數閾值:
利用設定的學習算法與訓練樣本集進行訓練,得到弱分類器,所述訓練樣本集中包括多個訓練樣本,所述多個訓練樣本中的任一訓練樣本具有權重;
基于所述弱分類器的受試者工作特征ROC曲線確定所述弱分類器的分類閾值;
得到所述弱分類器利用所述分類閾值對所述訓練樣本集的指定部分樣本子集中任一訓練樣本的分類結果;
基于所述分類結果對所述多個訓練樣本中的任一訓練樣本的權重進行調整;
迭代結束后,對每一次迭代得到的弱分類器進行整合得到二分類器。
2.根據權利要求1所述的方法,所述基于所述弱分類器的ROC曲線確定所述弱分類器的分類閾值,包括:
針對所述弱分類器的ROC曲線上的每一數據點,計算出所述數據點與指定坐標點之間的距離,其中,所述指定坐標點的縱軸坐標值為指定覆蓋率,所述指定坐標點的橫軸坐標值為1減去指定打擾率;
確定出與指點坐標點之間的距離最小的數據點;
基于所確定出的數據點確定所述弱分類器的分類閾值。
3.根據權利要求1所述的方法,所述基于所述弱分類器的ROC曲線確定所述弱分類器的分類閾值,包括:
針對所述弱分類器的ROC曲線上的每一數據點,利用設定算法對所述數據點的縱軸坐標值與橫軸坐標值進行運算;
確定出運算結果最大的數據點;
基于所確定出的數據點確定所述弱分類器的分類閾值。
4.根據權利要求1所述的方法,所述基于所述弱分類器的ROC曲線確定所述弱分類器的分類閾值,包括:
利用所述弱分類器計算出所述多個訓練樣本中任一訓練樣本的樣本得分,并基于所述樣本得分對所述訓練樣本進行判定,將判定結果作為是否針對所述樣本執行指定事件的依據;
估計所述多個訓練樣本的指定指標的密度函數,將所述指定指標的密度函數作為ROC曲線調整因子,所述指定指標反映所述指定事件的執行效果;
利用所述ROC曲線調整因子、所述多個訓練樣本對所述弱分類器的ROC曲線進行調整;
基于調整后的ROC曲線確定所述弱分類器的分類閾值。
5.根據權利要求1所述的方法,所述方法還包括:
迭代結束后,輸出所述多個訓練樣本中的任一訓練樣本的當前權重。
6.根據權利要求1所述的方法,所述方法還包括:
將測試樣本集中的任一測試樣本輸入所述二分類器,得到所述任一測試樣本的樣本得分。
7.根據權利要求1所述的方法,所述設定的學習算法至少為下述其中一項:
支持向量機SVM算法、邏輯回歸算法。
8.一種二分類器的訓練裝置,所述裝置包括:
訓練模塊,用于利用設定的學習算法與訓練樣本集進行訓練,得到弱分類器,所述訓練樣本集中包括多個訓練樣本,所述多個訓練樣本中的任一訓練樣本具有權重;
確定模塊,用于基于所述弱分類器的ROC曲線確定所述弱分類器的分類閾值;
分類模塊,用于得到所述弱分類器利用所述分類閾值對所述訓練樣本集的指定部分樣本子集中任一訓練樣本的分類結果;
調整模塊,用于基于所述分類結果對所述多個訓練樣本中的任一訓練樣本的權重進行調整;
所述訓練模塊、所述確定模塊,所述分類模塊,以及所述調整模塊相互配合實現迭代處理,直至滿足預設的迭代停止條件;
整合模塊,用于迭代結束后,對每一次迭代得到的弱分類器進行整合得到二分類器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810658424.5/1.html,轉載請聲明來源鉆瓜專利網。





