[發(fā)明專利]基于人工智能處理的文本分類方法和裝置在審

申請?zhí)枺?/td>	201811625414.8	申請日：	2018-12-28
公開（公告）號：	CN109726288A	公開（公告）日：	2019-05-07
發(fā)明（設(shè)計）人：	李暉;熊榮正;張雨薇	申請（專利權(quán)）人：	上海點(diǎn)融信息科技有限責(zé)任公司
主分類號：	G06F16/35	分類號：	G06F16/35
代理公司：	北京永新同創(chuàng)知識產(chǎn)權(quán)代理有限公司 11376	代理人：	楊勝軍
地址：	200023 上海市***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文本文本分類模型標(biāo)注歷史文本人工智能文本分類置信度方法和裝置分類準(zhǔn)確度文本標(biāo)注文本類別自動發(fā)現(xiàn) 新類分類更新
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開的實施例公開了一種基于人工智能處理的文本分類方法，該方法包括：使用文本分類模型對未標(biāo)注類別的第一文本集中的每個文本進(jìn)行分類，以確定所述第一文本集中的每個文本的置信度，其中，所述文本分類模型基于已標(biāo)注類別的歷史文本集來生成；基于所述第一文本集中的每個文本的置信度，從所述第一文本集中確定一個或多個文本，并對所述一個或多個文本標(biāo)注類別；當(dāng)標(biāo)注后的所述一個或多個文本中包括與所述歷史文本集中的類別不同的新類別的文本時，利用標(biāo)注后的所述一個或多個文本來更新所述歷史文本集。利用本公開的實施例的方法可以自動發(fā)現(xiàn)新的文本類別，并提高文本分類模型的分類準(zhǔn)確度。

技術(shù)領(lǐng)域

本公開內(nèi)容屬于信息處理技術(shù)領(lǐng)域，尤其涉及一種基于人工智能處理的文本分類方法、裝置以及一種相應(yīng)的計算機(jī)可讀存儲介質(zhì)。

背景技術(shù)

人工智能(Artificial Intelligence)，英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。文本分類是指采用自然語言處理(NLP)技術(shù)對文本(樣本)集按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動分類標(biāo)記。文本分類可以被廣泛地應(yīng)用于各種領(lǐng)域，諸如正負(fù)輿情監(jiān)控、智能客服、分辨垃圾郵件、電影評論情感識別以及任何可分類的任務(wù)等。傳統(tǒng)的文本分類方法包括兩個過程：1、基于大量已標(biāo)注類別的樣本，利用機(jī)器學(xué)習(xí)方法來訓(xùn)練出模型；2、利用模型對未標(biāo)注類別的樣本進(jìn)行分類。然而，這種方法是建立在類別固定的基礎(chǔ)上，當(dāng)出現(xiàn)新的樣本不屬于預(yù)先給定的任何一種類別時，模型的分類表現(xiàn)就會變差。

發(fā)明內(nèi)容

本公開的實施例提供了一種基于人工智能處理的文本分類方法、裝置以及一種相應(yīng)的計算機(jī)可讀存儲介質(zhì)，以至少部分地解決上述及其他潛在的問題。

本公開的實施例的第一方面提出了一種基于人工智能處理的文本分類方法，所述文本分類方法包括以下步驟：

A.使用文本分類模型對未標(biāo)注類別的第一文本集中的每個文本進(jìn)行分類，以確定所述第一文本集中的每個文本的置信度，其中，所述文本分類模型基于已標(biāo)注類別的歷史文本集來生成；

B.基于所述第一文本集中的每個文本的置信度，從所述第一文本集中確定一個或多個文本，并對所述一個或多個文本標(biāo)注類別；

C.當(dāng)標(biāo)注后的所述一個或多個文本中包括與所述歷史文本集中的類別不同的新類別的文本時，利用標(biāo)注后的所述一個或多個文本來更新所述歷史文本集；以及

D.利用經(jīng)更新的歷史文本集來生成新的文本分類模型以用于對所述第一文本集中未標(biāo)注的其他文本進(jìn)行分類。

本公開的實施例的第二方面提出了一種基于人工智能處理的文本分類裝置，所述文本分類裝置包括：

處理器；以及

存儲器，其用于存儲指令，當(dāng)所述指令被執(zhí)行時使得所述處理器執(zhí)行以下步驟：

B.基于所述第一文本集中的每個文本的置信度，從所述第一文本集中確定一個或多個文本，并對所述一個或多個文本標(biāo)注類別；

D.利用經(jīng)更新的歷史文本集來生成新的文本分類模型以用于對所述第一文本集中未標(biāo)注的其他文本進(jìn)行分類。

本公開的實施例的第三方面提出了一種計算機(jī)可讀存儲介質(zhì)，包括計算機(jī)可執(zhí)行指令，所述計算機(jī)可執(zhí)行指令在裝置中運(yùn)行時使得所述裝置執(zhí)行根據(jù)本發(fā)公開的實施例的第一方面所述的基于人工智能處理的文本分類方法。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海點(diǎn)融信息科技有限責(zé)任公司，未經(jīng)上海點(diǎn)融信息科技有限責(zé)任公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811625414.8/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】