[發明專利]基于深度學習模型的復合文本多分類方法及系統在審
| 申請號: | 202110222535.3 | 申請日: | 2021-02-27 |
| 公開(公告)號: | CN113011163A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 卜佑軍;孫嘉;陳博;張橋;王方玉;張鵬;周錕;伊鵬;馬海龍;胡宇翔;李錦玲;張穌榮;路祥雨;張進 | 申請(專利權)人: | 中國人民解放軍戰略支援部隊信息工程大學;網絡通信與安全紫金山實驗室 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/242;G06F40/284;G06F40/30;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 鄭州大通專利商標代理有限公司 41111 | 代理人: | 周艷巧 |
| 地址: | 450000 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 模型 復合 文本 分類 方法 系統 | ||
1.一種基于深度學習模型的復合文本多分類方法,其特征在于,包含:
將復合文本轉換至詞語粒度級的文本表示,對轉換后的詞語粒度級文本表示進行預處理,并通過詞嵌入方法表示為詞向量;
將詞向量作為已訓練的深度學習模型的輸入,通過模型中CNN卷積層提取文本特征,選取卷積后的向量,并保留全局部分序列關聯信息,通過模型中self-attention層為文本特征向量附加權重并進行等長向量序列拼接,利用模型中LSTM循環層提取文本特征向量;通過模型池化層對文本特征向量進行平均化操作,并利用softmax分類器獲取輸入的文本類別概率,依據概率大小來獲取文本分類結果。
2.根據權利要求1所述的基于深度學習模型的復合文本多分類方法,其特征在于,針對復合文本,以詞典為基本切分方法,根據文本語言特征、語序特征及結構特征,使用分詞系統進行不同級別分詞。
3.根據權利要求1所述的基于深度學習模型的復合文本多分類方法,其特征在于,針對復合文本進行特征分析,以基于字典匹配的分詞方法為基礎,并結合詞頻統計和語義理解分詞將復合文本劃分至詞語粒度級。
4.根據權利要求1或2或3所述的基于深度學習模型的復合文本多分類方法,其特征在于,預處理中,針對詞語粒度級的文本表示,通過加載停止詞詞典去除停止詞,利用TF-IDF詞頻統計去除所有類別內高頻詞,并利用Word2Vec詞嵌入方法表示為多維詞向量,其中,高頻詞為詞頻大于設定值的詞語。
5.根據權利要求1所述的基于深度學習模型的復合文本多分類方法,其特征在于,CNN卷積層中,使用不同卷積窗口對輸入的詞向量進行卷積操作,以不同視野寬度提取文本特征。
6.根據權利要求1所述的基于深度學習模型的復合文本多分類方法,其特征在于,利用模型Top-K池化層從卷積操作提取的文本特征向量中選取前K個代表性特征向量,從不定長的卷積層輸出截取訂場序列,并保留部分序列關聯信息。
7.根據權利要求6所述的基于深度學習模型的復合文本多分類方法,其特征在于,self-attention層中,針對輸入的特征向量序列,通過計算選定特征向量與其余特征向量相關度來確定該選定特征向量相對整體文本表示的貢獻度,并對其附加權重,通過拼接操作將詞向量拼接為表示文本的特征向量。
8.根據權利要求1所述的基于深度學習模型的復合文本多分類方法,其特征在于,深度學習模型中,利用單層LSTM循環層對輸入的特征向量矩陣進行單層循環學習并輸出文本特征向量。
9.根據權利要求1所述的基于深度學習模型的復合文本多分類方法,其特征在于,將經過平均化處理的文本特征向量輸入至softmax分類器來獲取類別分布概率,并選取概率最大的類別作為最終分類預測結果。
10.一種基于深度學習模型的復合文本多分類系統,其特征在于,包含:數據預處理模塊和分類預測模塊,其中,
數據預處理模塊,用于將復合文本轉換至詞語粒度級的文本表示,對轉換后的詞語粒度級文本表示進行預處理,并通過詞嵌入方法表示為詞向量;
分類預測模塊,用于將詞向量作為已訓練的深度學習模型的輸入,通過模型中CNN卷積層提取文本特征,選取卷積后的向量,并保留全局部分序列關聯信息,通過模型中self-attention層為文本特征向量附加權重并進行等長向量序列拼接,利用模型中LSTM循環層提取文本特征向量;通過模型池化層對文本特征向量進行平均化操作,并利用softmax分類器獲取輸入的文本類別概率,依據概率大小來獲取文本分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍戰略支援部隊信息工程大學;網絡通信與安全紫金山實驗室,未經中國人民解放軍戰略支援部隊信息工程大學;網絡通信與安全紫金山實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110222535.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于人工智能的軌道平整度檢測系統
- 下一篇:一種智能音樂學習及訓練裝置





