[發明專利]文本分類方法、裝置、電子設備及可讀存儲介質在審
| 申請號: | 202110581189.8 | 申請日: | 2021-05-27 |
| 公開(公告)號: | CN113157927A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 趙知緯 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/117;G06F40/242;G06F40/279;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 電子設備 可讀 存儲 介質 | ||
1.一種文本分類方法,其特征在于,所述方法包括:
對文本集中的每個文本進行意圖識別,并根據意圖識別的結果對所述文本集中的每個文本進行類別標簽標記,得到所述文本集的目標標簽集;
將所述文本集中每個文本進行分詞處理,并根據分詞處理的結果進行序列組合,得到每個文本的文本序列;
將所述目標標簽集中的所有標簽與所述文本序列進行文本拼接處理,得到樣本序列集;
利用所述樣本序列集對預構建的文本分類模型進行基于神經特征融合提取的模型訓練,得到訓練完成的文本分類模型;
當接收待分類文本時,對所述分類文本進行分詞及標簽拼接,得到待分類文本序列,利用所述訓練完成的文本分類模型對所述待分類文本序列進行分類,得到分類結果。
2.如權利要求1所述的文本分類方法,其特征在于,所述將所述目標標簽集中的所有標簽與所述文本序列進行文本拼接處理,得到樣本序列集,包括:
將所述目標標簽集中的所有標簽進行隨機組合,得到標簽序列;
利用預設字符將每個所述文本序列與所述標簽序列進行拼接,得到樣本序列;
匯總所有的樣本序列,得到所述樣本序列集。
3.如權利要求2所述的文本分類方法,其特征在于,所述將所述文本集中每個文本進行分詞處理,并根據分詞處理的結果進行序列組合,得到每個文本的文本序列,包括:
利用預設的分詞詞典對所述文本集中的每個文本進行分詞,得到對應的初始文本詞語集;
利用所述初始文本詞語集進行停用詞刪除,得到所述文本詞語集;
將所述文本詞語集中每個詞語按照在對應文本中的先后順序進行組合,得到每個文本的文本序列。
4.如權利要求2所述的文本分類方法,其特征在于,所述利用所述樣本序列集對預構建的文本分類模型進行基于神經特征融合提取的模型訓練,得到訓練完成的文本分類模型,包括:
步驟A:利用所述文本分類模型的編碼層將每個所述樣本序列中的詞語轉化為向量,將轉化得到的所有向量按照所述樣本序列中對應的詞語的順序進行組合,得到樣本矩陣;
步驟B:利用所述文本分類模型的特征提取層將所述樣本矩陣進行神經特征融合提取,得到融合特征矩陣;
步驟C:利用所述文本分類模型的注意力機制層對所述融合特征矩陣進行權重計算,得到目標矩陣;
步驟D:利用預設的激活函數計算所述目標矩陣對應的分類預測概率值;
步驟E:根據所述樣本矩陣對應的所述文本的類別標簽確定樣本分類真實值,利用預設的損失函數計算所述分類預測概率值與所述樣本分類真實值之間的損失值;
步驟F:當所述損失值大于或等于預設損失閾值時,更新所述文本分類模型的模型參數,并返回上述的步驟A進行迭代訓練,直到所述損失值小于預設損失閾值時,停止訓練,得到所述訓練完成的文本分類模型。
5.如權利要求4所述的文本分類方法,其特征在于,所述利用所述文本分類模型的特征提取層將所述樣本矩陣進行神經特征融合提取,得到融合特征矩陣,包括:
通過遍歷選取所述樣本矩陣的列,得到目標列;
對所述目標列進行神經特征融合提取,得到特征詞向量;
將所有的特征詞向量按照對應的目標列在所述樣本矩陣中的順序進行橫向組合,得到所述特征矩陣。
6.如權利要求5中所述的文本分類方法,其特征在于,所述對所述目標列進行神經特征融合提取,得到特征詞向量,包括:
將所述目標列與所述樣本矩陣的每一列進行張量乘法計算,得到第一詞向量矩陣;
將所有所述第一詞向量矩陣按照所述樣本矩陣中對應的列的順序進行堆疊,得到三維詞向量矩陣;
將所述三維詞向量矩陣按列進行縱向切分,得到多個第二詞向量矩陣;
選取每個第二詞向量矩陣中的最大值進行組合,得到所述特征詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110581189.8/1.html,轉載請聲明來源鉆瓜專利網。





