[發明專利]文本分類模型的訓練方法、系統及相關設備在審
| 申請號: | 202011035101.4 | 申請日: | 2020-09-27 |
| 公開(公告)號: | CN112256867A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 饒思維;張鵬;馬鑫典;張靜;田光見 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;李稷芳 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分類 模型 訓練 方法 系統 相關 設備 | ||
本申請實施例提供一種文本分類模型的訓練方法、系統及相關設備,其中,所述方法包括:采用第一超參數和多個樣本詞向量序列對張量網絡進行第一輪迭代訓練,以得到目標糾纏熵,所述目標糾纏熵的值為在進行所述第一輪迭代訓練過程中得到的第一糾纏熵收斂時的值;根據所述目標糾纏熵計算得到第二超參數;采用所述第二超參數和所述多個樣本詞向量序列對所述張量網絡進行第二輪迭代訓練,得到所述文本分類模型,其中,所述文本分類模型為在進行所述第二輪迭代訓練過程中計算得到的第二糾纏熵收斂時的張量網絡模型。采用本申請實施例,能夠極大程度地降低模型訓練的難度和成本以及過擬合現象的產生。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種文本分類模型的訓練方法、系統及相關設備。
背景技術
在現有技術中,通常神經網絡模型實現文本分類任務,例如:第一,使用卷積神經網絡(CNN)結構實現情感、問答等句子級別的分類任務;第二,提出了層次凝聚聚類算法(HAC)模型,利用深層CNN的中間信息形成分層結構特征(對應單詞、短語和從句等),然后模型利用膠囊模塊和注意力(attention)機制充分進行特征聚合;第三,模型基于注意力機制學習文本特征,不僅可以用于文本分類,還可用于機器翻譯等自然語言處理(NaturalLanguage Process,NLP)任務;第四,使用限制遞歸神經網絡,通過預設權重矩陣集使得模型訓練對虛詞降低權重,提高文本情緒分類的準確率。
然而,目前采用神經網絡模型雖然能夠取得較好的文本分類結果,但是神經網絡模型的輸入和輸出之間具有不可解釋性,在訓練時需要通過不可解釋的復雜調參過程才能獲取可用于實現文本分類任務的文本分類模型,其訓練過程相對復雜,需要進行大量調試,訓練難度大、成本高。其次,深度學習中的文本分類模型使用大量參數去學習文本特征,可能導致過擬合現象的產生,使得參數冗余、計算效率降低。
發明內容
本申請實施例公開了一種文本分類模型的訓練方法、系統及相關設備,通過采用張量網絡訓練文本分類模型,能夠極大程度地降低模型訓練的難度和成本以及過擬合現象的產生。
本申請實施例第一方面公開了一種文本分類模型的訓練方法,所述方法由計算機裝置執行,所述方法包括:采用第一超參數和多個樣本詞向量序列對張量網絡進行第一輪迭代訓練,以得到目標糾纏熵,其中,所述目標糾纏熵的值為在進行所述第一輪迭代訓練過程中得到的第一糾纏熵收斂時的值;根據所述目標糾纏熵計算得到第二超參數;采用所述第二超參數和所述多個樣本詞向量序列對所述張量網絡進行第二輪迭代訓練,得到所述文本分類模型,其中,所述文本分類模型為在進行所述第二輪迭代訓練過程中計算得到的第二糾纏熵收斂時的張量網絡模型。
其中,第一超參和第二超參是對于同一任務的超參的不同取值。應理解,一輪迭代訓練包括多次迭代,也即在一輪迭代中,多個樣本詞向量序列多次輸入到張量網絡中進行訓練,每一次訓練結束后,計算得到本次訓練的損失,根據本次訓練的損失調整張量網絡的模型參數,得到下一次訓練的張量網絡模型,然后進行下一次的訓練,直至模型收斂。
應理解,該多個樣本詞向量序列是由多個文本經過轉換得到的。就其中一個文本轉換成樣本詞向量序列來說,其具體轉換過程為:將文本中的每個詞轉換成詞向量,得到多個詞向量,再由該多個詞向量組成一個序列,得到該樣本詞向量序列。其中,由多個詞向量組成一個樣本詞向量序列時,可以按照詞向量對應的詞在文本中的順序來對該多個詞向量進行排序,從而得到該樣本詞向量序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011035101.4/2.html,轉載請聲明來源鉆瓜專利網。





