[發明專利]一種評估分類模型的方法和裝置在審
| 申請號: | 201711121290.5 | 申請日: | 2017-11-14 |
| 公開(公告)號: | CN109784352A | 公開(公告)日: | 2019-05-21 |
| 發明(設計)人: | 王晨陽;陳福豪;壽如陽;林睿 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;陸錦華 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類模型 類別數據 評估 方法和裝置 數據集 計算機技術領域 輸入數據集 參考數據 操作流程 模型開發 人工標注 自動化 分類 | ||
本發明公開了一種評估分類模型的方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:獲取多個分類模型對輸入數據集分類得到的多個第一類別數據集,每個第一類別數據集對應一分類模型;根據預選的參考數據集確定各第一類別數據集中的假正例數據集;根據各第一類別數據集和所述各第一類別數據集中的假正例數據集評估所述多個分類模型。該實施方式能夠徹底擺脫對人工標注的依賴,操作流程可以完全自動化運行,降低評估成本,加快評估速度,擴展評估范圍,提高評估可靠性,提升模型開發效率。
技術領域
本發明涉及計算機技術領域,尤其涉及一種評估分類模型的方法和裝置。
背景技術
分類在工業中有廣泛的應用,在分類模型的開發過程中,評估模型效果是至關重要的一環,直接決定了一個模型最終是否可以上線。目前,業界主要采用在測試集上計算混淆矩陣的方法來評估模型效果。使用分類模型對該測試集中的樣本進行預測后,每個樣本都會有兩個標注,一個是模型的預測標注,另一個是樣本的真值標注,由此構建混淆矩陣,混淆矩陣中的每一行表示一種模型預測結果,每一列表示一種真值結果,而混淆矩陣中每個單元的內容就是符合相應條件的樣本個數。利用混淆矩陣就可以計算出識別精度、敏感度、特異性等指標來客觀評估一個分類模型的識別效果。
這種評估方法必須有大量優質的人工標注樣本。以一個成熟的電商企業為例,每天會產生上億筆交易訂單,要獲得同等規模的人工標注樣本集,成本極大。同時,線上環境變化多端,若測試樣本集與上線日期相隔久遠,那么模型在該測試集上的表現就不足以作為指導其未來上線后實際運行效果的標準。即使在模型離線訓練完成后,重新從線上拉取最新的數據作為測試集,仍需要人工標注,人力和時間開銷都很大,無法做到即時評估、快速上線,降低了系統的迭代速度,并且難以觀察在一個較長的時間范圍內模型效果隨時間的變化情況。此外,人工標注可靠性不足,無法反映出模型的真實分類效果。傳統的模型評估方法以準確率為核心,完全依賴人工標注,成本高且可靠性低,嚴重制約著機器學習模型從實驗走向實際生產。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
人工標注成本高、耗時長,無法對模型效果做出即時評估,降低了模型迭代速度;
人工標注依賴于人的主觀經驗,標注的樣本可靠性不足,無法真實反映模型效果。
發明內容
有鑒于此,本發明實施例提供一種評估分類模型的方法和裝置,能夠徹底擺脫對人工標注的依賴,操作流程可以完全自動化運行,降低評估成本,加快評估速度,擴展評估范圍,提高評估可靠性,提升模型開發效率。
為實現上述目的,根據本發明實施例的一個方面,提供了一種評估分類模型的方法。
一種評估分類模型的方法,包括:獲取多個分類模型對輸入數據集分類得到的多個第一類別數據集,每個第一類別數據集對應一分類模型;根據預選的參考數據集確定各第一類別數據集中的假正例數據集;根據各第一類別數據集和所述各第一類別數據集中的假正例數據集評估所述多個分類模型。
可選地,所述參考數據集包括預設數量的第二類別數據集,根據預選的參考數據集確定各第一類別數據集中的假正例數據集的步驟,包括:根據所述預設數量的第二類別數據集與所述各第一類別數據集的交集確定所述各第一類別數據集中的假正例數據集。
可選地,根據各第一類別數據集和所述各第一類別數據集中的假正例數據集評估所述多個分類模型的步驟,包括:根據每個第一類別數據集和所述第一類別數據集中的假正例數據集計算所述第一類別數據集對應的分類模型的誤分類率;根據各分類模型的誤分類率評估所述各分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711121290.5/2.html,轉載請聲明來源鉆瓜專利網。





