[發明專利]文本分類方法、裝置、計算機設備和存儲介質有效
| 申請號: | 202110482695.1 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113011533B | 公開(公告)日: | 2023-10-24 |
| 發明(設計)人: | 劉翔;谷坤 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/241;G06F18/214;G06N3/084;G06F40/211;G06F40/284 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 谷波 |
| 地址: | 518048 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種文本分類方法,其特征在于,所述方法包括:
從原始文本中提取待分析的目標文本數據;
對所述目標文本數據進行預處理,得到所述目標文本數據的分詞結果;
將所述分詞結果輸入與訓練好的文本分類模型中,所述文本分類模型基于所述分詞結果得到所述目標文本數據對應的目標字向量、目標詞向量和目標位置向量以及基于所述目標字向量、所述目標詞向量和所述目標位置向量得到所述目標文本數據的目標分類標簽;其中,所述文本分類模型為經過訓練的alber模型。
2.根據權利要求1所述的文本分類方法,其特征在于,在從原始文本中提取待分類的文本數據之前,還包括:
提取待所述原始文本中關鍵詞,并構成關鍵詞集;
基于TF-IDF模型確定所述關鍵詞集在各個類別的語料庫中的詞頻-逆文檔頻率;
基于所述原始文本的關鍵詞集在各個類別的語料庫中的詞頻-逆文檔頻率,確定所述原始文本屬于各個類別的置信度;
根據所述原始文本屬于各個類別的置信度,確定所述原始文本的一級分類標簽;
將所述一級分類標簽與預設的一級分類標簽信息進行匹配,并根據匹配結果確定是否采用所述文本分類模型對所述原始文本進行文本分類。
3.根據權利要求1所述的文本分類方法,其特征在于,所述對所述文本數據進行預處理,得到分詞結果,包括:
對所述目標文本數據進行去停用詞、去重中的一種,得到第二文本數據,對所述第二文本數據進行分詞操作,得到分詞結果。
4.根據權利要求1所述的文本分類方法,其特征在于,所述方法還包括:訓練所述文本分類模型,所述訓練所述文本分類模型,包括:
獲取第一訓練樣本集,所述第一訓練樣本集中包含第一訓練文本,且所述第一訓練文本包含對應的第一分類標簽;
基于所述第一訓練樣本集,以所述第一分類標簽為分類目標預訓練albert模型,得到初始文本分類模型;
判斷所述初始文本分類模型的分類結果的準確率是否大于預設閾值,
如果大于所述預設閾值,則以所述初始文本分類模型為最終的文本分類模型;
如果不大于所述預設閾值,則對所述第一訓練文本對應的分類標簽進行糾錯,并基于糾錯后的第一訓練樣本集對所述初始文本分類模型進行迭代,直至所述初始文本分類模型的分類結果的準確率大于預設閾值。
5.根據權利要求4所述的文本分類模型的訓練方法,其特征在于,所述判斷所述初始文本分類模型的分類結果的準確率是否大于預設閾值,包括:
獲取第二訓練樣本集,所述第二訓練樣本集中包含第二訓練文本;
基于所述初始文本分類模型,得到所述第二訓練樣本集中的第二訓練文本對應的預測分類標簽;
根據所述預測分類標簽和所述第二訓練文本對應的第二分類標簽,判斷所述初始分類模型的分類結果的準確率是否大于預設閾值,其中,所述第二分類標簽是通過用戶人工標注的第二分類標簽。
6.根據權利要求4所述的文本分類模型的訓練方法,其特征在于,所述基于所述第一訓練樣本集,以所述第一分類標簽為分類目標預訓練albert模型,得到初始文本分類模型,包括:
將所述第一訓練樣本集按照預設的比例分為訓練數據和驗證數據;
將所述訓練數據輸入待訓練的初始文本分類模型進行模型訓練;
基于所述驗證數據對訓練后的所述初始文本分類模型進行驗證,并根據驗證結果得到優化后的初始文本分類模型。
7.根據權利要求4所述的文本分類模型的訓練方法,其特征在于,所述對所述第一訓練文本對應的分類標簽進行糾錯,包括:
對所述預測結果進行審核,得到預測正確的第一訓練文本和預測錯誤的第一訓練文本;
將所述預測錯誤第一訓練文本進行人工標注,以將所述預測錯誤第一訓練文本的標簽正確標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110482695.1/1.html,轉載請聲明來源鉆瓜專利網。





