[發(fā)明專利]文本分類方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110581189.8 | 申請(qǐng)日: | 2021-05-27 |
| 公開(kāi)(公告)號(hào): | CN113157927A | 公開(kāi)(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 趙知緯 | 申請(qǐng)(專利權(quán))人: | 中國(guó)平安人壽保險(xiǎn)股份有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/117;G06F40/242;G06F40/279;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市沃德知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區(qū)益田路5033號(hào)*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 分類 方法 裝置 電子設(shè)備 可讀 存儲(chǔ) 介質(zhì) | ||
本發(fā)明涉及語(yǔ)義解析領(lǐng)域,揭露一種文本分類方法,包括:對(duì)文本集中的每個(gè)文本進(jìn)行類別標(biāo)簽標(biāo)記,得到所述文本集的目標(biāo)標(biāo)簽集;將文本集及目標(biāo)標(biāo)簽集進(jìn)行文本拼接處理,得到樣本序列集;利用所述樣本序列集對(duì)預(yù)構(gòu)建的文本分類模型進(jìn)行基于神經(jīng)特征融合提取的迭代訓(xùn)練,直至所述文本分類模型收斂,得到訓(xùn)練完成的文本分類模型;當(dāng)接收待分類文本時(shí),對(duì)所述分類文本進(jìn)行分詞及標(biāo)簽拼接,得到待分類文本序列,利用所述訓(xùn)練完成的文本分類模型對(duì)所述待分類文本序列進(jìn)行分類,得到分類結(jié)果。本發(fā)明還涉及一種區(qū)塊鏈技術(shù),所述文本集可以存儲(chǔ)在區(qū)塊鏈節(jié)點(diǎn)中。本發(fā)明還提出一種文本分類裝置、電子設(shè)備以及存儲(chǔ)介質(zhì)。本發(fā)明可以提高文本分類的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)義解析領(lǐng)域,尤其涉及一種文本分類方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著人工智能的發(fā)展,自然語(yǔ)言處理領(lǐng)域成為了人工智能的重要組成部分,文本分類作為自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)技術(shù)也因此受到了人們的重視。
但是,目前的文本分類依靠模型進(jìn)行文本分類,模型分類過(guò)程中只考慮了詞與詞之間簡(jiǎn)單的特征融合,特征提取的不全面,導(dǎo)致文本分類的準(zhǔn)確率較低。
發(fā)明內(nèi)容
本發(fā)明提供一種文本分類方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其主要目的在于提高文本分類的準(zhǔn)確率。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種文本分類方法,包括:
對(duì)文本集中的每個(gè)文本進(jìn)行意圖識(shí)別,并根據(jù)意圖識(shí)別的結(jié)果對(duì)所述文本集中的每個(gè)文本進(jìn)行類別標(biāo)簽標(biāo)記,得到所述文本集的目標(biāo)標(biāo)簽集;
將所述文本集中每個(gè)文本進(jìn)行分詞處理,并根據(jù)分詞處理的結(jié)果進(jìn)行序列組合,得到每個(gè)文本的文本序列;
將所述目標(biāo)標(biāo)簽集中的所有標(biāo)簽與所述文本序列進(jìn)行文本拼接處理,得到樣本序列集;
利用所述樣本序列集對(duì)預(yù)構(gòu)建的文本分類模型進(jìn)行基于神經(jīng)特征融合提取的模型訓(xùn)練,得到訓(xùn)練完成的文本分類模型;
當(dāng)接收待分類文本時(shí),對(duì)所述分類文本進(jìn)行分詞及標(biāo)簽拼接,得到待分類文本序列,利用所述訓(xùn)練完成的文本分類模型對(duì)所述待分類文本序列進(jìn)行分類,得到分類結(jié)果。
當(dāng)接收待分類文本時(shí),對(duì)所述分類文本進(jìn)行分詞及標(biāo)簽拼接,得到待分類文本序列,利用所述訓(xùn)練完成的文本分類模型對(duì)所述待分類文本序列進(jìn)行分類,得到分類結(jié)果。
可選地,所述將所述目標(biāo)標(biāo)簽集中的所有標(biāo)簽與所述文本序列進(jìn)行文本拼接處理,得到樣本序列集,包括:
將所述目標(biāo)標(biāo)簽集中的所有標(biāo)簽進(jìn)行隨機(jī)組合,得到標(biāo)簽序列;
利用預(yù)設(shè)字符將每個(gè)所述文本序列與所述標(biāo)簽序列進(jìn)行拼接,得到樣本序列;
匯總所有的樣本序列,得到所述樣本序列集。
可選地,所述將所述文本集中每個(gè)文本進(jìn)行分詞處理,并根據(jù)分詞處理的結(jié)果進(jìn)行序列組合,得到每個(gè)文本的文本序列,包括:
利用預(yù)設(shè)的分詞詞典對(duì)所述文本集中的每個(gè)文本進(jìn)行分詞,得到對(duì)應(yīng)的初始文本詞語(yǔ)集;
利用所述初始文本詞語(yǔ)集進(jìn)行停用詞刪除,得到所述文本詞語(yǔ)集;
將所述文本詞語(yǔ)集中每個(gè)詞語(yǔ)按照在對(duì)應(yīng)文本中的先后順序進(jìn)行組合,得到每個(gè)文本的文本序列。
可選地,所述利用利用所述樣本序列集對(duì)預(yù)構(gòu)建的文本分類模型進(jìn)行基于神經(jīng)特征融合提取的模型訓(xùn)練,得到訓(xùn)練完成的文本分類模型,包括:
步驟A:利用所述文本分類模型的編碼層將每個(gè)所述樣本序列中的詞語(yǔ)轉(zhuǎn)化為向量,將轉(zhuǎn)化得到的所有向量按照所述樣本序列中對(duì)應(yīng)的詞語(yǔ)的順序進(jìn)行組合,得到樣本矩陣;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)平安人壽保險(xiǎn)股份有限公司,未經(jīng)中國(guó)平安人壽保險(xiǎn)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110581189.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





