[發明專利]基于深度學習模型的復合文本多分類方法及系統在審
| 申請號: | 202110222535.3 | 申請日: | 2021-02-27 |
| 公開(公告)號: | CN113011163A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 卜佑軍;孫嘉;陳博;張橋;王方玉;張鵬;周錕;伊鵬;馬海龍;胡宇翔;李錦玲;張穌榮;路祥雨;張進 | 申請(專利權)人: | 中國人民解放軍戰略支援部隊信息工程大學;網絡通信與安全紫金山實驗室 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/242;G06F40/284;G06F40/30;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 鄭州大通專利商標代理有限公司 41111 | 代理人: | 周艷巧 |
| 地址: | 450000 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 模型 復合 文本 分類 方法 系統 | ||
本發明屬于自然語言處理技術領域,特別涉及一種基于深度學習模型的復合文本多分類方法及系統,包含:將復合文本轉換至詞語粒度級的文本表示,對轉換后的詞語粒度級文本表示進行預處理,并通過詞嵌入方法表示為詞向量;將詞向量作為深度學習模型輸入,通過模型CNN卷積層提取文本特征,選取卷積后向量,并保留全局部分序列關聯信息,通過模型self?attention層為文本特征向量附加權重并進行等長向量序列拼接,利用模型LSTM循環層提取文本特征向量;通過模型池化層對文本特征向量進行平均化操作,并利用softmax分類器獲取輸入的文本類別概率,依據概率大小來獲取文本分類結果。本發明可解決復合文本精確多分類問題,滿足自然語言文本多分類預測識別的實際應用。
技術領域
本發明屬于自然語言處理技術領域,特別涉及一種基于深度學習模型的復合文本多分類方法及系統,通過復合深度學習模型CNN、LSTM、self-attention對文本進行多分類預測。
背景技術
文本分類是自然語言處理中關鍵且基礎的任務之一,其常見的方法有傳統的機器學習分類模型如樸素貝葉斯、支持向量機、邏輯回歸等,以及演變至目前一系列基于深度學習的分類模型,主要包括CNN、LSTM、attention等。
Text-CNN實現簡單,支持并行,其主要的特點是局部感知和權值共享。局部感知使模型每次只需要感知較小的局部地區,降低參數量的同時提高擬合能力。權值共享使一些基本特征可以重復利用,提高神經網絡訓練效果。Attention機制原理是從從大量信息中篩選并聚焦在更為有效的信息上,聚焦的過程體現在權重系數的計算上。LSTM循環神經網絡是一種以序列數據為輸入來進行建模的深度學習模型,相比于其它神經網絡模型,LSTM能更有效的處理序列信息,是NLP中常用的模型。在文本分類的實際應用中,CNN模型簡單、訓練速度快,效果可觀,但可解釋性不強,在調優模型時很難根據訓練結果針對性調整具體特征,不易對每個特征重要度進行評估;Attention機制中能無視詞之間的舉例直接計算依賴關系,能夠學習句子內部結構,實現簡單且可并行計算,但進行權重計算時需要計算每個特征向量之間相關性,當特征向量較多時計算量較高;LSTM能夠有效處理序列信息,但不夠直觀缺乏可解釋性。
發明內容
為此,本發明提供一種基于深度學習模型的復合文本多分類方法及系統,采用CNN、LSTM、attention三種深度學習模型來組成用于解決文本精確多分類的復合學習模型,以滿足自然語言文本多分類預測識別的實際應用。
按照本發明所提供的設計方案,提供一種基于深度學習模型的復合文本多分類方法,包含:
將復合文本轉換至詞語粒度級的文本表示,對轉換后的詞語粒度級文本表示進行預處理,并通過詞嵌入方法表示為詞向量;
將詞向量作為已訓練的深度學習模型的輸入,通過模型中CNN卷積層提取文本特征,選取卷積后的向量,并保留全局部分序列關聯信息,通過模型中self-attention層為文本特征向量附加權重并進行等長向量序列拼接,利用模型中LSTM循環層提取文本特征向量;通過模型池化層對文本特征向量進行平均化操作,并利用softmax分類器獲取輸入的文本類別概率,依據概率大小來獲取文本分類結果。
作為本發明基于深度學習模型的復合文本多分類方法,進一步地,針對復合文本,以詞典為基本切分方法,根據文本語言特征、語序特征及結構特征,使用分詞系統進行不同級別分詞。
作為本發明基于深度學習模型的復合文本多分類方法,進一步地,針對復合文本進行特征分析,以基于字典匹配的分詞方法為基礎,并結合詞頻統計和語義理解分詞將復合文本劃分至詞語粒度級。
作為本發明基于深度學習模型的復合文本多分類方法,進一步地,預處理中,針對詞語粒度級的文本表示,通過加載停止詞詞典去除停止詞,利用TF-IDF詞頻統計去除所有類別內高頻詞,并利用Word2Vec詞嵌入方法表示為多維詞向量,其中,高頻詞為詞頻大于設定值的詞語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍戰略支援部隊信息工程大學;網絡通信與安全紫金山實驗室,未經中國人民解放軍戰略支援部隊信息工程大學;網絡通信與安全紫金山實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110222535.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于人工智能的軌道平整度檢測系統
- 下一篇:一種智能音樂學習及訓練裝置





