[發(fā)明專利]基于人工智能處理的文本分類方法和裝置在審
| 申請?zhí)枺?/td> | 201811625414.8 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109726288A | 公開(公告)日: | 2019-05-07 |
| 發(fā)明(設(shè)計)人: | 李暉;熊榮正;張雨薇 | 申請(專利權(quán))人: | 上海點(diǎn)融信息科技有限責(zé)任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京永新同創(chuàng)知識產(chǎn)權(quán)代理有限公司 11376 | 代理人: | 楊勝軍 |
| 地址: | 200023 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 文本分類模型 標(biāo)注 歷史文本 人工智能 文本分類 置信度 方法和裝置 分類準(zhǔn)確度 文本標(biāo)注 文本類別 自動發(fā)現(xiàn) 新類 分類 更新 | ||
本公開的實施例公開了一種基于人工智能處理的文本分類方法,該方法包括:使用文本分類模型對未標(biāo)注類別的第一文本集中的每個文本進(jìn)行分類,以確定所述第一文本集中的每個文本的置信度,其中,所述文本分類模型基于已標(biāo)注類別的歷史文本集來生成;基于所述第一文本集中的每個文本的置信度,從所述第一文本集中確定一個或多個文本,并對所述一個或多個文本標(biāo)注類別;當(dāng)標(biāo)注后的所述一個或多個文本中包括與所述歷史文本集中的類別不同的新類別的文本時,利用標(biāo)注后的所述一個或多個文本來更新所述歷史文本集。利用本公開的實施例的方法可以自動發(fā)現(xiàn)新的文本類別,并提高文本分類模型的分類準(zhǔn)確度。
技術(shù)領(lǐng)域
本公開內(nèi)容屬于信息處理技術(shù)領(lǐng)域,尤其涉及一種基于人工智能處理的文本分類方法、裝置以及一種相應(yīng)的計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。文本分類是指采用自然語言處理(NLP)技術(shù)對文本(樣本)集按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動分類標(biāo)記。文本分類可以被廣泛地應(yīng)用于各種領(lǐng)域,諸如正負(fù)輿情監(jiān)控、智能客服、分辨垃圾郵件、電影評論情感識別以及任何可分類的任務(wù)等。傳統(tǒng)的文本分類方法包括兩個過程:1、基于大量已標(biāo)注類別的樣本,利用機(jī)器學(xué)習(xí)方法來訓(xùn)練出模型;2、利用模型對未標(biāo)注類別的樣本進(jìn)行分類。然而,這種方法是建立在類別固定的基礎(chǔ)上,當(dāng)出現(xiàn)新的樣本不屬于預(yù)先給定的任何一種類別時,模型的分類表現(xiàn)就會變差。
發(fā)明內(nèi)容
本公開的實施例提供了一種基于人工智能處理的文本分類方法、裝置以及一種相應(yīng)的計算機(jī)可讀存儲介質(zhì),以至少部分地解決上述及其他潛在的問題。
本公開的實施例的第一方面提出了一種基于人工智能處理的文本分類方法,所述文本分類方法包括以下步驟:
A.使用文本分類模型對未標(biāo)注類別的第一文本集中的每個文本進(jìn)行分類,以確定所述第一文本集中的每個文本的置信度,其中,所述文本分類模型基于已標(biāo)注類別的歷史文本集來生成;
B.基于所述第一文本集中的每個文本的置信度,從所述第一文本集中確定一個或多個文本,并對所述一個或多個文本標(biāo)注類別;
C.當(dāng)標(biāo)注后的所述一個或多個文本中包括與所述歷史文本集中的類別不同的新類別的文本時,利用標(biāo)注后的所述一個或多個文本來更新所述歷史文本集;以及
D.利用經(jīng)更新的歷史文本集來生成新的文本分類模型以用于對所述第一文本集中未標(biāo)注的其他文本進(jìn)行分類。
本公開的實施例的第二方面提出了一種基于人工智能處理的文本分類裝置,所述文本分類裝置包括:
處理器;以及
存儲器,其用于存儲指令,當(dāng)所述指令被執(zhí)行時使得所述處理器執(zhí)行以下步驟:
A.使用文本分類模型對未標(biāo)注類別的第一文本集中的每個文本進(jìn)行分類,以確定所述第一文本集中的每個文本的置信度,其中,所述文本分類模型基于已標(biāo)注類別的歷史文本集來生成;
B.基于所述第一文本集中的每個文本的置信度,從所述第一文本集中確定一個或多個文本,并對所述一個或多個文本標(biāo)注類別;
C.當(dāng)標(biāo)注后的所述一個或多個文本中包括與所述歷史文本集中的類別不同的新類別的文本時,利用標(biāo)注后的所述一個或多個文本來更新所述歷史文本集;以及
D.利用經(jīng)更新的歷史文本集來生成新的文本分類模型以用于對所述第一文本集中未標(biāo)注的其他文本進(jìn)行分類。
本公開的實施例的第三方面提出了一種計算機(jī)可讀存儲介質(zhì),包括計算機(jī)可執(zhí)行指令,所述計算機(jī)可執(zhí)行指令在裝置中運(yùn)行時使得所述裝置執(zhí)行根據(jù)本發(fā)公開的實施例的第一方面所述的基于人工智能處理的文本分類方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海點(diǎn)融信息科技有限責(zé)任公司,未經(jīng)上海點(diǎn)融信息科技有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811625414.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 建立文本分類模型以及文本分類的方法、裝置
- 文本分類方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 文本分類模型訓(xùn)練方法、文本分類方法及設(shè)備
- 文本分類方法和裝置、服務(wù)器
- 文本分類方法、裝置、設(shè)備及計算機(jī)可讀存儲介質(zhì)
- 文本分類方法、裝置、電子設(shè)備及存儲介質(zhì)
- 模型生成方法、文本分類方法、裝置、設(shè)備及介質(zhì)
- 文本分類模型的訓(xùn)練方法及其設(shè)備、存儲介質(zhì)
- 文本分類模型封裝方法、文本分類方法及相關(guān)設(shè)備
- 一種文本分類方法、裝置、計算機(jī)設(shè)備及可讀存儲介質(zhì)
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺的方法、裝置、電子設(shè)備和存儲介質(zhì)





