[發明專利]文本多標簽分類方法、裝置、設備及存儲介質有效
| 申請號: | 202110702628.6 | 申請日: | 2021-06-24 |
| 公開(公告)號: | CN113435308B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 方俊波 | 申請(專利權)人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V30/19;G06V10/82;G06N3/045;G06N3/06 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 標簽 分類 方法 裝置 設備 存儲 介質 | ||
1.一種文本多標簽分類方法,其特征在于,所述方法包括:
獲取文本集,提取所述文本集中每個文本對應的文本標簽,將提取到的所有所述文本標簽進行文本去重處理,得到文本標簽集;
對所述文本標簽集中的每個文本標簽進行向量化處理,得到文本標簽向量,計算任意兩個所述文本標簽向量的向量距離,利用所述向量距離對所述文本標簽集中的所有文本標簽進行聚類,得到一個或者多個文本標簽簇,并根據所述文本標簽簇的數量以及預設字符為每個所述文本標簽簇構建對應的聚類標簽;
將所述文本集中的每個文本的文本標簽替換為所屬文本標簽簇對應的聚類標簽,得到標簽替換文本集;
按照預設的數據分配比例,將所述標簽替換文本集劃分為第一文本集和第二文本集;
利用所述第一文本集對預構建的第一深度學習模型進行訓練,得到初始標簽分類模型;
利用所述初始標簽分類模型對所述第二文本集中每個文本進行標簽識別,得到對應的識別標簽,匯總所述識別標簽,得到識別標簽集,及匯總所述聚類標簽,得到初始聚類標簽集,將所述識別標簽集與所述初始聚類標簽集進行交集運算,得到聚類標簽集;
選取所述聚類標簽集中每個聚類標簽對應的文本標簽簇,得到目標文本標簽簇;
過濾所述文本集中不屬于所述目標文本標簽簇的文本標簽,利用預構建的第二深度學習模型對所述過濾后的所述文本集進行預設次數的卷積池化操作,得到特征集;利用預設的激活函數對所述特征集中的每個特征數據進行計算,得到每個特征數據對應的標簽分析值;根據所述特征數據對應文本的文本標簽確認對應的標簽真實值,并利用預構建的損失函數計算所述標簽分析值及所述標簽真實值之間的損失值;根據所述損失值得到目標標簽分類模型;
當接收待分類文本時,利用所述目標標簽分類模型對所述待分類文本進行標簽分類,得到分類結果。
2.如權利要求1所述的文本多標簽分類方法,其特征在于,所述利用所述初始標簽分類模型對所述第二文本集中每個文本進行標簽識別,得到對應的識別標簽,包括:
利用所述初始標簽分類模型對所述第二文本集中每個文本進行標簽識別,得到每個所述聚類標簽對應的識別概率;
選取所述識別概率大于預設閾值的聚類標簽,得到所述識別標簽。
3.如權利要求1所述的文本多標簽分類方法,其特征在于,所述過濾所述文本集中不屬于所述目標文本標簽簇的文本標簽,包括:
匯總所有所述目標文本標簽簇中的文本標簽,得到標準文本標簽集;
計算所述標準文本標簽集在所述文本標簽集中的補集,得到過濾標簽集;
利用所述過濾標簽集對所述文本集中每個文本對應所有文本標簽進行過濾,得到標準文本;
匯總所有標準文本得到標準文本集。
4.如權利要求1所述的文本多標簽分類方法,其特征在于,所述根據所述文本標簽簇的數量以及預設字符為每個所述文本標簽簇構建對應的聚類標簽,包括:
計算所有所述文本標簽簇的數量;
根據所述計算的數量構建相同維度的自然數序列;
將所述自然數序列中的每個自然數與預設字符組合,得到對應的簇標簽;
將所述簇標簽確定為任一所述文本標簽簇的聚類標簽。
5.如權利要求1所述的文本多標簽分類方法,其特征在于,所述利用所述第一文本集對預構建的第一深度學習模型進行訓練,得到初始標簽分類模型之前,所述方法還包括:
利用預構建的自然語言處理模型作為基礎模型;
在所述基礎模型后增加全連接網絡及sigmoid函數,得到所述初始分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安國際智慧城市科技股份有限公司,未經平安國際智慧城市科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110702628.6/1.html,轉載請聲明來源鉆瓜專利網。





