[發(fā)明專利]訓(xùn)練分類器的方法和對(duì)象分類的方法及其裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201811001723.8 | 申請(qǐng)日: | 2018-08-29 |
| 公開(公告)號(hào): | CN110555453A | 公開(公告)日: | 2019-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 劉海哮;謝靜輝;劉松 | 申請(qǐng)(專利權(quán))人: | 北京三星通信技術(shù)研究有限公司;三星電子株式會(huì)社 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 11021 中科專利商標(biāo)代理有限責(zé)任公司 | 代理人: | 李敬文 |
| 地址: | 100028 北京市朝*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 類別概率 訓(xùn)練樣本 概率信息 分類 訓(xùn)練分類器 標(biāo)簽信息 概率分布 參考 擬合 | ||
本發(fā)明提供了一種提供了一種訓(xùn)練分類器的方法,包括:根據(jù)各個(gè)類別中分類正確的訓(xùn)練樣本的類別概率信息與該類別的參考概率信息,得到第一距離,其中,所述所述參考概率信息是根據(jù)各個(gè)類別的分類正確的訓(xùn)練樣本的類別概率信息得到的;或者,根據(jù)各個(gè)類別中分類正確的訓(xùn)練樣本的類別概率信息與該類別的標(biāo)簽信息,得到第三距離;根據(jù)第一距離或第三距離擬合概率分布。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù),特別是涉及一種訓(xùn)練分類器的方法和對(duì)象分類的方法及其裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,信息量幾何倍增。自動(dòng)處理對(duì)象(例如,文本信息、圖像信息、音頻信息、多模信息)成為人工智能的重要發(fā)展方向。而對(duì)象分類問(wèn)題是自然語(yǔ)言理解的基礎(chǔ),在信息提取、對(duì)話系統(tǒng)、手機(jī)助手等諸多方面都有重要應(yīng)用。
傳統(tǒng)的分類器往往基于封閉性假設(shè),即測(cè)試所見(jiàn)的句子的類別標(biāo)記都在訓(xùn)練數(shù)據(jù)中出現(xiàn)過(guò),分類器會(huì)自動(dòng)把測(cè)試對(duì)象分類到其最接近的類別,所述測(cè)試對(duì)象可以是用戶輸入的文本信息、圖像信息、音頻信息、多模信息中的任意一種或多種。傳統(tǒng)的封閉式分類器,要在訓(xùn)練分類器的時(shí)候設(shè)計(jì)好類別標(biāo)簽,一旦超出設(shè)計(jì)范圍的對(duì)象(例如,語(yǔ)句)出現(xiàn),會(huì)被分類到最近的一個(gè)類別。這種分類在比較寬泛的分類時(shí)成立,例如情感識(shí)別,新聞分類等,其類別數(shù)目往往可以通過(guò)窮舉得到。但是針對(duì)一些精確商用化分類問(wèn)題(例如,手機(jī)助手,對(duì)話系統(tǒng)等),封閉性假設(shè)并不合理。
由于訓(xùn)練分類器的時(shí)候不可能考慮的足夠全面,窮盡各種功能,因此在實(shí)際測(cè)試和應(yīng)用中會(huì)出現(xiàn)在訓(xùn)練分類器的時(shí)候沒(méi)有考慮到的功能類別(下文稱之為不可見(jiàn)的拒絕類別)。另外,由于網(wǎng)絡(luò)信號(hào),隱私,法律條例,應(yīng)用版權(quán),開發(fā)難度等問(wèn)題,也會(huì)存在很多在訓(xùn)練分類器的時(shí)候考慮到但由于上述原因而不準(zhǔn)備支持的功能類別(下文稱之為可見(jiàn)的拒絕類別)。對(duì)于上述兩種功能類別,僅僅將其分類為相近的類別標(biāo)簽,則本文分類具有很強(qiáng)的不確定性,有可能產(chǎn)生對(duì)象接近但是功能迥異的情況。因此可見(jiàn)拒絕類別或者不可見(jiàn)拒絕類別兩者都需要拒絕。要實(shí)現(xiàn)這兩種拒絕,則需要在對(duì)象分類中確定輸入的對(duì)象樣本是否屬于上述兩種拒絕類別,尤其是是否屬于場(chǎng)外數(shù)據(jù)的類別(即,不可見(jiàn)的拒絕類別),這樣就需要在分類器的常規(guī)訓(xùn)練的基礎(chǔ)上增加對(duì)兩張拒絕類別,尤其是對(duì)不可見(jiàn)的拒絕類別的識(shí)別和拒絕方法。
發(fā)明內(nèi)容
針對(duì)上述問(wèn)題,本發(fā)明實(shí)施例提供了一種訓(xùn)練分類器的方法和對(duì)象分類的方法及其裝置。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種訓(xùn)練分類器的方法,包括:根據(jù)各個(gè)類別中分類正確的訓(xùn)練樣本的類別概率信息與該類別的參考概率信息,得到第一距離,其中,所述所述參考概率信息是根據(jù)各個(gè)類別的分類正確的訓(xùn)練樣本的類別概率信息得到的;或者,根據(jù)各個(gè)類別中分類正確的訓(xùn)練樣本的類別概率信息與該類別的標(biāo)簽信息,得到第三距離;根據(jù)第一距離或第三距離擬合概率分布。
其中,所述參考概率信息為平均概率信息,所述平均概率信息為每個(gè)類別中分類正確的訓(xùn)練樣本的類別概率信息的中心點(diǎn)。
其中,所述第三距離為所述類別概率信息和所述標(biāo)簽信息的二元交叉熵以及概率差的加權(quán)平方平均數(shù),所述概率差為所述類別概率信息和所述真實(shí)標(biāo)簽信息第i維的差值,i是樣本的類別標(biāo)號(hào)。
其中,所述根據(jù)第一距離擬合概率分布包括:根據(jù)各個(gè)類別中分類正確的訓(xùn)練樣本的類別概率信息與除了正確分類所屬的類別之外的其他類別的參考概率信息,得到第二距離;根據(jù)第二距離對(duì)第一距離進(jìn)行修正,得到修正距離;根據(jù)所述修正距離擬合概率分布。
根據(jù)本發(fā)明實(shí)施例的另一個(gè)方面,提供了一種對(duì)象分類方法,包括:將用戶輸入的對(duì)象輸入到分類器中以得到類別概率信息,所述類別概率信息表示所述對(duì)象屬于各個(gè)類別的概率;根據(jù)所述類別概率信息中的最大概率得到第一距離,所述第一距離為所述類別概率信息與所述最大概率對(duì)應(yīng)的類別的參考概率信息的距離;或者,根據(jù)所述類別概率信息中的最大概率得到第三距離,所述第三距離為所述類別概率信息與所述類別概率信息中最大概率的類別的標(biāo)簽信息的距離;根據(jù)第一距離或第三距離得到累計(jì)概率,并基于累計(jì)概率將所述對(duì)象進(jìn)行分類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三星通信技術(shù)研究有限公司;三星電子株式會(huì)社,未經(jīng)北京三星通信技術(shù)研究有限公司;三星電子株式會(huì)社許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811001723.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種分類器的構(gòu)建方法
- 一種性別分類網(wǎng)絡(luò)訓(xùn)練方法、性別分類方法及相關(guān)裝置
- 人臉識(shí)別方法、裝置、存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 機(jī)器識(shí)別模型的訓(xùn)練及機(jī)器識(shí)別方法、裝置、電子設(shè)備
- 訓(xùn)練樣本保存方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 信息處理方法、推薦方法及相關(guān)設(shè)備
- 訓(xùn)練樣本篩選方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文本語(yǔ)料的處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種圖像處理模型、機(jī)器學(xué)習(xí)模型的訓(xùn)練方法及裝置
- 預(yù)測(cè)模型訓(xùn)練、數(shù)據(jù)預(yù)測(cè)方法、裝置和存儲(chǔ)介質(zhì)





