[發明專利]基于Attention神經網絡的多元特征融合中文文本分類方法有效
| 申請號: | 201810063815.2 | 申請日: | 2018-01-23 |
| 公開(公告)號: | CN108460089B | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 謝金寶;侯永進;殷楠楠;謝桂芬;王玉靜;梁新濤 | 申請(專利權)人: | 海南師范大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱市偉晨專利代理事務所(普通合伙) 23209 | 代理人: | 陳潤明 |
| 地址: | 570000 海*** | 國省代碼: | 海南;46 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 attention 神經網絡 多元 特征 融合 中文 文本 分類 方法 | ||
1.基于Attention神經網絡的多元特征融合中文文本分類方法,其特征在于,包括以下階段:
階段1:對中文文本語料進行預處理;
階段2:構建Attention算法神經網絡模型;
階段3:構建多元特征融合神經網絡模型,所述多元特征融合的神經網絡由三條CNN通路,一條LSTM通路和一條Attention算法通路并聯組成,所述三條CNN通路,一條LSTM通路和一條Attention算法通路的輸出在融合層以拼接融合的方式進行多元特征的融合;
階段4:模型訓練,將訓練集的詞向量構成的嵌入層輸入到多元特征融合的神經網絡,得到的數據先通過一個全連接層,接著再輸入到由softmax函數構成的分類器,進行訓練并得到訓練參數;
階段5:模型測試,將測試集的詞向量構成的嵌入層輸入到訓練后的模型中,得到的數據先通過一個全連接層,接著再輸入到softmax函數構成的分類器,分類器輸出文本類別。
2.根據權利要求1所述的基于Attention神經網絡的多元特征融合中文文本分類方法,其特征在于,所述對中文文本語料進行預處理包含以下步驟:
步驟(1)分詞并生成詞向量詞典:收集中文文本語料,分詞處理,利用word2vec訓練生成詞向量詞典;
步驟(2)數據集劃分:將分詞處理后的中文文本語料劃分為訓練集和測試集;
步驟(3)文本數字化:使用tokenizer函數將訓練集中的每個字,詞和標點與詞向量詞典對比,生成訓練集的詞向量索引,用測試集與詞向量詞典對比,生成測試集的詞向量索引;
步驟(4)文本向量化:按詞向量索引的索引號從詞典中提取對應的詞向量,并組成嵌入層;
步驟(5)打標簽:根據中文文本語料的類別數量,對語料的不同類別賦予one-hot形式的標簽。
3.根據權利要求2所述的基于Attention神經網絡的多元特征融合中文文本分類方法,其特征在于,所述分詞處理后的語料保留標點及所有的字和詞。
4.根據權利要求2所述的基于Attention神經網絡的多元特征融合中文文本分類方法,其特征在于,所述分詞處理后的每篇文章所生成的詞向量矩陣維度相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于海南師范大學,未經海南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810063815.2/1.html,轉載請聲明來源鉆瓜專利網。





