[發明專利]樣本拒識方法、裝置、設備及存儲介質有效
| 申請號: | 202011179458.X | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112308131B | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 高文龍;李承恩;文瑞;陳曦;張子恒 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06V10/74 | 分類號: | G06V10/74;G06V10/764;G16H50/20;G16H50/30 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 徐立 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 方法 裝置 設備 存儲 介質 | ||
本申請實施例提供一種樣本拒識方法、裝置、設備及存儲介質。該方法包括:獲取待分類樣本;對待分類樣本進行向量化處理,得到待分類樣本的特征向量;通過分類模型獲取特征向量分別與n個中心向量之間的相似度;基于特征向量分別與n個中心向量之間的相似度,確定待分類樣本是否屬于拒識樣本,拒識樣本是指分類結果不為分類模型所包括的類別的樣本。本申請實施例提供的技術方案,由于待分類樣本的特征與該待分類樣本所屬的類別的特征通常較為相似,基于該特性來判斷待分類樣本是否屬于拒識樣本,避免分類模型在待分類樣本屬于拒識樣本時輸出錯誤的分類結果,提高分類準確率。
技術領域
本申請實施例涉及人工智能的機器學習技術領域,特別涉及一種樣本拒識方法、裝置、設備及存儲介質。
背景技術
分類模型是機器學習技術領域較為廣泛的應用之一。例如,疾病預測模型、物體分類模型等。
相關技術中,在訓練分類模型時設定分類模型的類別數目,分類模型訓練完成后,其使用過程具體如下:接收輸入的待分類樣本,獲取待分類樣本屬于各個類別的概率,概率最大的類別也即是上述待分類樣本所屬的類別。例如,短信識別模型預先設定有詐騙短信和推銷短信兩個類別,待分類樣本1為短信“今日運動鞋特惠,點擊鏈接即可購買”,通過短信識別模型確定待分類樣本1 為推銷短信。
相關技術中,存在待分類樣本不屬于上述預先設定的類別的情況,此時分類模型返回錯誤的分類結果,分類準確率較低。例如,待分類樣本2為短信“今晚6點大魚餐廳,不見不散”,待分類樣本2既不屬于詐騙短信,也不屬于推銷短信,此時短信識別模型返回的分類結果為詐騙短信或推銷短信,短信分類結果錯誤。
發明內容
本申請實施例提供一種樣本拒識方法、裝置、設備及存儲介質,提高分類準確率。所述技術方案如下:
一方面,本申請實施例提供一種樣本拒識方法,所述方法包括:
獲取待分類樣本;
對所述待分類樣本進行向量化處理,得到所述待分類樣本的特征向量;
通過分類模型獲取所述特征向量分別與n個中心向量之間的相似度,所述n 個中心向量與所述分類模型的n個類別一一對應,所述類別對應的中心向量用于表征分類結果為所述類別的樣本數據的整體特征,所述n為正整數;
基于所述特征向量分別與n個中心向量之間的相似度,確定所述待分類樣本是否屬于拒識樣本,所述拒識樣本是指分類結果不為所述分類模型所包括的類別的樣本。
另一方面,本申請實施例提供一種樣本拒識方法,所述方法包括:
獲取患者的患病癥狀信息;
對所述患者的患病癥狀信息進行向量化處理,得到所述患病癥狀信息的特征向量;
通過疾病預測模型獲取所述特征向量分別與n個中心向量之間的相似度,所述疾病預測模型用于基于患病癥狀信息預測疾病類型,所述n個中心向量與所述疾病預測模型的n個疾病類型一一對應,所述疾病類型對應的中心向量用于表征分類結果為所述疾病類型的樣本數據的整體特征,所述n為正整數;
基于所述特征向量分別與n個中心向量之間的相似度,確定所述患病癥狀信息是否屬于拒識樣本,所述拒識樣本是指分類結果不為所述疾病預測模型所包括的疾病類型的樣本。
又一方面,本申請實施例提供一種樣本拒識裝置,所述裝置包括:
樣本獲取模塊,用于獲取待分類樣本;
第一向量化模塊,用于對所述待分類樣本進行向量化處理,得到所述待分類樣本的特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011179458.X/2.html,轉載請聲明來源鉆瓜專利網。





