[發明專利]分類器訓練方法和裝置有效
| 申請號: | 201410328821.8 | 申請日: | 2014-07-10 |
| 公開(公告)號: | CN105320957B | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 賁國生;李巖 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 董晶;王琦 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 訓練 方法 裝置 | ||
本發明涉及一種分類器訓練方法和裝置。所述方法包括以下步驟:從原始類別樣本集中篩選樣本組成訓練類別樣本集;對所述訓練類別樣本集中樣本進行訓練,得到用于預測的參數文件;根據所述參數文件對所述原始類別樣本集中樣本進行預測得到類別樣本預測結果;根據所述類別樣本預測結果獲取預測結果錯誤的樣本;將預測結果錯誤的樣本添加到所述訓練類別樣本集中,更新所述訓練類別樣本集,對所述更新后的訓練類別樣本集中樣本再進行訓練得到用于預測的新的參數文件,并根據所述新的參數文件對所述原始類別樣本集中樣本進行預測得到類別樣本預測結果,直到類別樣本預測結果滿足預設迭代條件為止。分類器預測未知類別數據得到較優的準確性。
技術領域
本發明涉及數據處理領域,特別是涉及一種分類器訓練方法和裝置。
背景技術
隨著信息的爆發式發展,面對大量的信息需要篩選出符合自身需要的信息,則需對信息進行分類處理。例如,1)色情淫穢內容的自動判斷,隨著信息安全的重要性越來越高,如何有效的處理網絡上的色情等有害信息是一個急需解決的問題,通過分類算法學習色情淫穢內容的特征并結合語義分析能夠有效地分出色情淫穢內容并進行有效的處理。2)情感分析或自定將電源或產品評論按照褒貶性分類。3)垃圾郵件的過濾,為了將垃圾郵件和其他正常郵件區分開,減少垃圾郵件的干擾,在垃圾郵件過濾中將郵件內容分為垃圾類和正常類,然后通過分類算法學習得到分類模型再進行預測,從而區分出正常郵件和垃圾郵件,并將垃圾郵件過濾掉。
通過分類算法學習得到的分類模塊或分類決策函數稱為分類器。傳統的分類訓練過程中,通過收集具有類別信息的人工標注數據來一次性學習樣本數據獲得分類器,采用該分類器預測沒有類別信息的數據時,準確性并非最優的。
發明內容
基于此,有必要針對傳統的分類訓練得到分類器進行預測時準確性并非最優的問題,提供一種能得到較優的準確性的分類器訓練方法和裝置。
一種分類器訓練方法,包括以下步驟:
從原始類別樣本集中篩選樣本組成訓練類別樣本集;
對所述訓練類別樣本集中樣本進行訓練,得到用于預測的參數文件;
根據所述參數文件對所述原始類別樣本集中樣本進行預測得到類別樣本預測結果;
根據所述類別樣本預測結果獲取預測結果錯誤的樣本;
將預測結果錯誤的樣本添加到所述訓練類別樣本集中,更新所述訓練類別樣本集,對所述更新后的訓練類別樣本集中樣本再進行訓練得到用于預測的新的參數文件,并根據所述新的參數文件對所述原始類別樣本集中樣本進行預測得到類別樣本預測結果,直到類別樣本預測結果滿足預設迭代條件為止。
一種分類器訓練裝置,包括:
選取模塊,用于從原始類別樣本集中篩選樣本組成訓練類別樣本集;
訓練模塊,用于對所述訓練類別樣本集中樣本進行訓練,得到用于預測的參數文件;
預測模塊,用于根據所述參數文件對所述原始類別樣本集中樣本進行預測得到類別樣本預測結果;
獲取模塊,用于根據所述類別樣本預測結果獲取預測結果錯誤的樣本;
更新模塊,用于將預測結果錯誤的樣本添加到所述訓練類別樣本集中,更新所述訓練類別樣本集;
所述訓練模塊還用于對所述更新后的訓練類別樣本集中樣本再進行訓練得到用于預測的新的參數文件;
所述預測模塊還用于根據所述新的參數文件對所述原始類別樣本集中樣本進行預測得到類別樣本預測結果,直到類別樣本預測結果滿足預設迭代條件為止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410328821.8/2.html,轉載請聲明來源鉆瓜專利網。





