[發(fā)明專利]一種分類方法、計算機設(shè)備和計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202210122530.8 | 申請日: | 2022-02-09 |
| 公開(公告)號: | CN114491042A | 公開(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計)人: | 李劍鋒 | 申請(專利權(quán))人: | 武漢路特斯汽車有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N20/00 |
| 代理公司: | 北京智匯東方知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11391 | 代理人: | 趙燕燕 |
| 地址: | 430070 湖北省武漢市武漢*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分類 方法 計算機 設(shè)備 可讀 存儲 介質(zhì) | ||
本發(fā)明提供了一種分類方法、計算機設(shè)備和計算機可讀存儲介質(zhì)。在確定待分類樣本j的預(yù)測結(jié)果需要修正后,按照以下方法對待分類樣本j的預(yù)測結(jié)果進行修正:獲取待分類樣本j的概率分布P(j)以及驗證集中高置信度部分的概率分布P(1)、P(2)、...、P(n);按照以下公式對待分類樣本j進行行間標(biāo)準(zhǔn)化計算:l∈{1,2,...,n}∪{j},為從訓(xùn)練集中獲得的類別先驗分布;將行間標(biāo)準(zhǔn)化后得到的待分類樣本j的概率分布按照以下公式進行行內(nèi)標(biāo)準(zhǔn)化計算:將行內(nèi)標(biāo)準(zhǔn)化后得到的待分類樣本j的概率分布作為待分類樣本j的新的概率值返回以再次判斷待分類樣本j屬于哪一類別。本發(fā)明方案提高了分類準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及機器學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種分類方法、計算機設(shè)備和計算機可讀存儲介質(zhì)。
背景技術(shù)
分類算法在很多應(yīng)用場景中起著至關(guān)重要的作用,目前分類算法主要有傳統(tǒng)機器學(xué)習(xí)分類和基于神經(jīng)網(wǎng)絡(luò)的分類算法。3)然而,即使是最有效的分類器在對給定接近其決策邊界的樣本進行分類時也會受到影響,解決此類問題,對分類場景有重要意義。
例如,在文本處理領(lǐng)域中,其分類算法中包括模型訓(xùn)練以及文本類別預(yù)測。模型訓(xùn)練包括以下步驟:1)獲取多個訓(xùn)練樣本和多個訓(xùn)練樣本的標(biāo)簽;2)針對各個訓(xùn)練文本,將訓(xùn)練文本和樣本標(biāo)簽輸入初始深度學(xué)習(xí)模型;3)通過訓(xùn)練初始深度學(xué)習(xí)模型,確定初始深度學(xué)習(xí)模型的參數(shù)權(quán)重;4)基于更新好的參數(shù)權(quán)重信息,得到訓(xùn)練完成的深度學(xué)習(xí)模型。文本類別預(yù)測包括以下步驟:1)獲取待分類文本;2)將待分類文本輸入訓(xùn)練好的深度學(xué)習(xí)模型中;3)通過訓(xùn)練好的深度學(xué)習(xí)模型得到待分類文本的類別標(biāo)簽和類別標(biāo)簽的概率。
然而,上述技術(shù)方案中,分類器在對給定接近其決策邊界的樣本進行分類時會受到影響。例如對于文本3的分類問題,經(jīng)過深度學(xué)習(xí)模型預(yù)測輸出的類別概率為[0.5,0.5,0]時,就不確定文本屬于哪個類別,因為有兩個概率是最大的且相同的。又如,在實際情況中,會有極其接近的概率,如0.3999999和0.3999998,這也是模型決策比較容易犯錯的情況。造成此類缺陷的問題有很多,比如訓(xùn)練數(shù)據(jù)覆蓋不完全、欠擬合和過擬合等。
發(fā)明內(nèi)容
本發(fā)明的一個目的在于解決現(xiàn)有技術(shù)中的在對給定接近其決策邊界的樣本進行分類時分類準(zhǔn)確率較低的技術(shù)問題。
本發(fā)明的一個進一步的目的在于極大提高低置信度的樣本的預(yù)測結(jié)果。
特別地,本發(fā)明提供了一種分類方法,在確定待分類樣本j的預(yù)測結(jié)果需要修正后,按照以下方法對所述待分類樣本j的預(yù)測結(jié)果進行修正:
獲取待分類樣本j的概率分布P(j)以及驗證集中高置信度部分的概率分布P(1)、P(2)、...、P(n);
按照以下公式對所述待分類樣本j進行行間標(biāo)準(zhǔn)化計算:
l∈{1,2,...,n}∪{j},為從訓(xùn)練集中獲得的類別先驗分布;
將行間標(biāo)準(zhǔn)化后得到的待分類樣本j的概率分布按照以下公式進行行內(nèi)標(biāo)準(zhǔn)化計算:
將行內(nèi)標(biāo)準(zhǔn)化后得到的待分類樣本j的概率分布作為所述待分類樣本j的新的概率值返回以再次判斷所述待分類樣本j屬于哪一類別。
可選地,所述獲取待分類樣本j的概率分布P(j)以及驗證集中高置信度部分的概率分布P(1)、P(2)、...、P(n)的步驟中,所述驗證集的所述高置信度部分的確定方法包括如下步驟:
獲取所述驗證集中的各個驗證集樣本的概率值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢路特斯汽車有限公司,未經(jīng)武漢路特斯汽車有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210122530.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





