[發明專利]分類精度評價方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202110503779.9 | 申請日: | 2021-05-10 |
| 公開(公告)號: | CN113052270A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 劉皓辰;譚澤龍;計哲;黃遠;孫曉晨;沈亮;李鵬;萬辛;倪善金;郭敏;張衛強 | 申請(專利權)人: | 清華大學;國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q10/06 |
| 代理公司: | 北京華進京聯知識產權代理有限公司 11606 | 代理人: | 樊春燕 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 精度 評價 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種分類精度評價方法、裝置、計算機設備和存儲介質。所述方法包括:獲取有害語音樣本集;將有害語音樣本集中的每個有害語音樣本輸入待評價的有害語音分類模型中進行分類,得到預測類別標簽;在預設的分類層級中,確定與預測類別標簽和有害語音樣本的樣本類別標簽對應的目標分類;根據目標分類計算待評價的有害語音分類模型的分類精確程度。本方案中,對有害語音樣本進行了多層次的分類(即分類層級),然后在分類層級中確定預測類別標簽和樣本類別標簽共同所屬的目標分類,目標分類可以反映預測類別標簽和樣本類別標簽的匹配度,進而根據目標分類確定分類模型的分類精確程度,能夠有效的提高分類模型評價的準確度。
技術領域
本申請涉及機器學習技術領域,特別是涉及一種分類精度評價方法、裝置、計算機設備和存儲介質。
背景技術
分類技術是在統計學習理論基礎上發展起來的一種新的非常有效的機器學習方法。由于其出色的學習性能,分類技術已成為預測領域新的研究熱點。
語音分類的應用已經深入日常生活的方方面面。例如,有害語音分類在預防各種電信詐騙上取得了顯著的效果。有害語音分類模型是用于對有害語音進行分類的模型,有害語音的分類結果可以反過來評價有害語音分類模型的分類效果。
目前針對有害語音分類模型的評價是根據正確結果與預測結果是否一致來評價模型的分類效果,不能對具體的分類結果進行更加精細化的評價,對分類模型評價的準確度較低。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高分類模型評價準確度的分類精度評價方法、裝置、計算機設備和存儲介質。
第一方面,提供了一種分類精度評價方法,該方法包括:
獲取有害語音樣本集,有害語音樣本集包括多個有害語音樣本以及每個有害語音樣本對應的樣本類別標簽;
將有害語音樣本集中的每個有害語音樣本輸入待評價的有害語音分類模型中進行分類,得到預測類別標簽;
在預設的分類層級中,確定與預測類別標簽和有害語音樣本的樣本類別標簽對應的目標分類;其中,目標分類為包含預測類別標簽和樣本類別標簽的最低層級的分類;
根據目標分類確定待評價的有害語音分類模型的分類精確程度。
在其中一個實施例中,在預設的分類層級中,確定與預測類別標簽和有害語音樣本的樣本類別標簽對應的目標分類,包括:
在預設的分類層級中,逐層向上查找并比對預測類別標簽的上層分類以及有害語音樣本的樣本類別標簽的上層分類;
當預測類別標簽的上層分類與有害語音樣本的樣本類別標簽的上層分類相同時,將相同的分類作為目標分類。
在其中一個實施例中,根據目標分類確定待評價的有害語音分類模型的分類精確程度,包括:
根據目標分類以及不在目標分類中的最小類確定每個樣本標簽的寄生最小類組,其中,最小類為有害語音樣本集中各樣本類別標簽對應的分類;
根據每一個樣本對應的寄生最小類組計算歸類切量;
將所有樣本的歸類切量相加得到總歸類切量;
根據總歸類切量和總最大歸類切量計算分類精確程度。
在其中一個實施例中,根據每一個樣本對應的寄生最小類組計算歸類切量,包括:
當有害語音樣本的預測類別標簽與樣本類別標簽相同時,根據最小類的集合中每個最小類中的樣本數與總樣本數計算歸類切量;
當有害語音樣本的預測類別標簽與樣本類別標簽不同時,根據目標分類中的樣本數、不在目標分類中的每個最小類的樣本數以及總樣本數計算歸類切量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;國家計算機網絡與信息安全管理中心,未經清華大學;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110503779.9/2.html,轉載請聲明來源鉆瓜專利網。





