[發明專利]文本分類方法、裝置、電子設備及存儲介質有效
| 申請號: | 202011144860.4 | 申請日: | 2020-10-23 |
| 公開(公告)號: | CN112269875B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 謝舒翼 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/214;G06N3/044;G06N3/049 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 方法 裝置 電子設備 存儲 介質 | ||
本發明涉及人工智能領域,揭露了一種文本分類方法,包括:根據第一文本分類模型及第二文本分類模型計算出訓練文本集的第一文本分類概率值和第二文本分類概率值,調整第二文本分類模型的參數,得到初始文本分類模型;利用初始文本分類模型對驗證文本集進行文本分類后計算文本分類的準確率;若準確率大于預設閾值,利用初始文本分類模型對待分類文本進行文本分類,得到分類結果;若準確率不大于預設閾值,利用第一文本分類模型對初始文本分類模型進行迭代訓練;利用迭代訓練后的第二文本分類模型對待分類文本進行文本分類,得到分類結果。此外,本發明還涉及區塊鏈技術,所述訓練文本集可存儲于區塊鏈中。本發明可以提高文本分類的分類效果。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種文本分類方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
隨著大數據時代的到來,深度學習迎來了突飛猛進的發展,為了充分利用這些大數據達到更好的文本分類效果,目前行業內通常會采用以下兩種方案:方案一、使用過參數化的神經網絡模型進行文本分類,比如BERT、ERNIE等,這類神經網絡模型雖然學習能力非常強,然而這類神經網絡模型的參數量也相當驚人,需要占用巨大的內存資源,比如BERT-base有一億零九百萬參數,BERT-large的參數量則高達三億三千萬;方案二、通過集成的方式,將許多弱的神經網絡模型集成起來實現文本分類,比如將textcnn、fasttext等神經網絡模型集成,但這類神經網絡模型泛化性較弱,無法復用到多個場景的文本分類。
發明內容
本發明提供一種文本分類方法、裝置、電子設備及計算機可讀存儲介質,其主要目的在于提高文本分類的分類效果。
為實現上述目的,本發明提供的一種文本分類方法,包括:
獲取訓練文本集及驗證文本集,利用所述訓練文本集對第一分類模型進行文本分類訓練,得到第一文本分類模型,及利用所述訓練文本集對第二分類模型進行文本分類訓練,得到第二文本分類模型;
根據在所述第一文本分類模型中構建的第一文本分類神經元層數,計算所述訓練文本集的第一文本分類概率值,及根據在所述第二文本分類模型中構建的第二文本分類神經元層數,計算所述訓練文本集的第二文本分類概率值;
計算所述第一文本分類概率值與所述第二文本分類概率值的相對熵,根據所述相對熵,調整所述第二文本分類模型的參數,直至所述第二文本分類模型趨于收斂時,得到初始第二文本分類模型;
利用所述初始第二文本分類模型對所述驗證文本集進行文本分類并計算所述文本分類的結果的文本分類準確率;
若所述文本分類準確率大于預設閾值,則利用所述初始第二文本分類模型對待分類文本進行文本分類,得到所述待分類文本的分類結果;
若所述文本分類準確率不大于預設閾值,則利用所述第一文本分類模型對所述初始第二文本分類模型進行迭代訓練,得到目標文本分類模型;
利用所述目標文本分類模型對待分類文本進行文本分類,得到所述待分類文本的分類結果。
可選地,所述第一分類模型是RoBERTa模型以及所述第二分類模型是LSTM模型。
可選地,所述根據在所述第一文本分類模型中構建的第一文本分類神經元層數,計算所述訓練文本集的第一文本分類概率值,包括:
利用下述方法計算所述訓練文本集的第一文本分類概率值:
其中,Z(t)表示第一文本分類概率值,表示訓練文本集中第b個文本分類結果與第一文本分類神經元層數的比值,j表示訓練文本集的文本分類數量,表示訓練文本集中所有文本分類結果與第一文本分類神經元層數的比值。
可選地,所述計算所述第一文本分類概率值與所述第二文本分類概率值的相對熵,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011144860.4/2.html,轉載請聲明來源鉆瓜專利網。





