[發明專利]文本分類方法、裝置、電子設備及存儲介質在審
| 申請號: | 202310440568.4 | 申請日: | 2023-04-20 |
| 公開(公告)號: | CN116644179A | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 陳浩 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/289;G06F40/30 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 汪飛亞 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 電子設備 存儲 介質 | ||
1.一種文本分類方法,其特征在于,所述方法包括:
構造訓練文本集;
獲取所述訓練文本集中每個訓練文本的字級別處理結果及詞語級別處理結果;
提取所述字級別處理結果中每個字的字向量表示;
基于所述詞語級別處理結果中每個詞語對應的多個字向量表示,生成所述每個詞語的詞語向量表示;
基于每個所述訓練文本的多個所述詞語向量表示訓練得到文本分類模型;
使用所述文本分類模型對待分類文本進行分類,得到分類結果。
2.如權利要求1所述的文本分類方法,其特征在于,所述方法還包括:
獲取所述訓練文本集中每個訓練文本的句子級別處理結果;
基于所述句子級別處理結果中每個句子對應的多個詞語向量表示,生成所述每個句子的句子向量表示;
基于每個所述訓練文本的多個所述句子向量表示訓練得到所述文本分類模型。
3.如權利要求1所述的文本分類方法,其特征在于,所述方法還包括:
獲取所述訓練文本集中每個訓練文本的句子級別處理結果;
基于所述句子級別處理結果中每個句子對應的多個詞語向量表示,生成所述每個句子的句子向量表示;
基于每個所述訓練文本的多個所述字向量表示、多個所述詞語向量表示及多個所述句子向量表示中的任意兩個的組合或者全部的組合訓練得到所述文本分類模型。
4.如權利要求1至3中任意一項所述的文本分類方法,其特征在于,所述獲取所述訓練文本集中每個訓練文本的詞語級別處理結果包括:
使用預設第一抽取模型抽取所述訓練文本中的多個第一關鍵詞;
使用預設第二抽取模型抽取所述訓練文本中的多個第二關鍵詞;
基于所述多個第一關鍵詞及所述多個第二關鍵詞得到初始關鍵詞集;
識別所述初始關鍵詞集中的非重要關鍵詞;
將所述非重要關鍵詞從所述初始關鍵詞集中進行刪除,得到所述詞語級別處理結果。
5.如權利要求4所述的文本分類方法,其特征在于,所述使用所述文本分類模型對待分類文本進行分類,得到分類結果包括:
獲取所述待分類文本的待分類字級別處理結果及待分類詞語級別處理結果;
提取所述待分類字級別處理結果中每個字的待分類字向量表示;
基于所述待分類詞語級別處理結果中每個詞語對應的多個待分類字向量表示,生成所述每個詞語的待分類詞語向量表示;
使用所述文本分類模型基于多個所述待分類詞語向量表示進行分類,得到分類結果。
6.如權利要求5所述的文本分類方法,其特征在于,所述方法還包括:
獲取所述訓練文本集中與所述分類結果中類別標簽相同的目標訓練文本;
根據所述目標訓練文本對應的所述詞語級別處理結果構建詞語字典;
根據所述待分類詞語級別處理結果及所述詞語字典計算得到所述類別標簽的匹配度;
判斷所述匹配度是否大于預設匹配度閾值;
當所述匹配度大于所述預設匹配度閾值時,根據所述待分類詞語級別處理結果更新所述詞語字典,并根據所述待分類文本更新所述訓練文本集。
7.如權利要求5所述的文本分類方法,其特征在于,所述構造訓練文本集包括:
獲取原始文本;
對所述原始文本進行清洗處理,得到清洗文本;
標注所述清洗文本的類別標簽;
根據所述清洗文本及對應的所述類別標簽構造文本標簽對;
基于多個所述文本標簽對得到所述訓練文本集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310440568.4/1.html,轉載請聲明來源鉆瓜專利網。





