[發明專利]文本分類方法、裝置、電子設備及存儲介質在審
| 申請號: | 202310440568.4 | 申請日: | 2023-04-20 |
| 公開(公告)號: | CN116644179A | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 陳浩 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284;G06F40/289;G06F40/30 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 汪飛亞 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 電子設備 存儲 介質 | ||
本發明涉及人工智能及數字醫療技術領域,提供一種文本分類方法、裝置、電子設備及存儲介質,基于字級別的pre?trained訓練,提取字的字向量表示能夠避免分詞的錯位而丟失詞語的信息;在fine?tuning階段根據字向量表示生成詞語的詞語向量表示,基于詞語向量表示,不僅能夠有效的利用預訓練的向量信息,將詞語級別的向量融合起來,還可以有效的避免通過修改pre?trained方式而造成的諸多問題,同時還能夠將中文的詞語信息融合到模型中,而詞語級別的分詞,通常在中文文本分類場景中有著巨大的作用,對模型最終的分類結果有著巨大的影響,提升了文本分類模型對語義理解的準確率,從而提升了文本分類模型的精度,進而提升了對文本分類的準確度。
技術領域
本發明涉及人工智能及數字醫療技術領域,具體涉及一種文本分類方法、裝置、電子設備及存儲介質。
背景技術
文本分類在醫療數據、社交平臺、商品評論、郵件識別及情感分析等方面都有重大意義,隨著計算機技術的飛速發展,用人工智能來進行文本分類已經比較普遍。隨著預訓練模型在自然語言處理(Nature?Language?Process,NLP)領域的快速發展,現階段的NLP模型的訓練主要分為預訓練(pre-trained)和微調(fine-tuning)兩階段:在pre-trained階段,主要利用自監督的方式在海量的文本語料做預訓練,得到上下文token向量;在fine-tuning階段,利用該得到的向量在自己的訓練語料中做微調,得到最終的模型。
發明人在實現本發明的過程中發現,pre-trained和fine-tuning存在不一致的問題:在pre-trained階段,文本通常被分為字級別的token,而在fine-tuning階段,文本又被切分為詞語級別的token,導致模型前后輸入不一致,從而造成文本分類模型精度的損失?,F有技術中,通過將pre-trained階段的字級別的token修改為詞語級別的token來解決模型前后輸入不一致的問題,但是由于中文的詞語存在不同的組合,基于詞語級別的token,會在pre-trained階段造成詞語表維度的巨增,進而導致預訓練階段得到的向量效果不佳,從而導致模型的準確度較差。
發明內容
鑒于以上內容,有必要提出一種文本分類方法、裝置、電子設備及存儲介質,能夠提高文本分類模型的精度,從而提高文本分類的準確度。
本發明的第一方面提供一種文本分類方法,所述方法包括:
構造訓練文本集;
獲取所述訓練文本集中每個訓練文本的字級別處理結果及詞語級別處理結果;
提取所述字級別處理結果中每個字的字向量表示;
基于所述詞語級別處理結果中每個詞語對應的多個字向量表示,生成所述每個詞語的詞語向量表示;
基于每個所述訓練文本的多個所述詞語向量表示訓練得到文本分類模型;
使用所述文本分類模型對待分類文本進行分類,得到分類結果。
根據本發明的一個可選的實施方式,所述方法還包括:
獲取所述訓練文本集中每個訓練文本的句子級別處理結果;
基于所述句子級別處理結果中每個句子對應的多個詞語向量表示,生成所述每個句子的句子向量表示;
基于每個所述訓練文本的多個所述句子向量表示訓練得到所述文本分類模型。
根據本發明的一個可選的實施方式,所述方法還包括:
獲取所述訓練文本集中每個訓練文本的句子級別處理結果;
基于所述句子級別處理結果中每個句子對應的多個詞語向量表示,生成所述每個句子的句子向量表示;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310440568.4/2.html,轉載請聲明來源鉆瓜專利網。





