[發明專利]基于多分類節點卷積循環網絡的文本特征提取及分類方法在審
| 申請號: | 201810384910.2 | 申請日: | 2018-04-26 |
| 公開(公告)號: | CN108595643A | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 唐賢倫;林文星;萬輝;杜一銘;魏暢;昌泉;楊濟維;伍亞明 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06N3/04 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅;陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 循環網絡 卷積 文本特征提取 分類節點 詞向量 分類器 分類 預處理 分類準確率 詞語組合 輔助網絡 損失函數 特征輸入 網絡提取 文本數據 性能測試 一維卷積 組合特征 主分類 加權 網絡 輸出 優化 | ||
本發明請求保護一種基于多分類節點卷積循環網絡的文本特征提取及分類方法。首先對文本數據進行預處理生成詞向量;然后一維卷積網絡提取多個詞的詞向量的組合特征;分別將提取到的詞語組合特征輸入雙向長短期記憶循環網絡和多重卷積網絡中。其中雙向長短期記憶循環網絡的輸出作為主分類器的輸入,多重卷積網絡含有輔分類器,輔助網絡訓練。優化加權后的總損失函數,并對主分類器進行性能測試并實現分類。本發明能夠獲得較高的分類準確率。
技術領域
本發明屬于文本的特征提取及分類方法技術領域,特別是一種基于多分類節點卷積循環網絡的文本特征提取及分類方法。
背景技術
互聯網每天都會產生海量的文本數據。如何有效地挖掘文本信息,對文本數據進行有效的分類是自然語言處理領域的經典問題。
當前,針對文本分類的模型已經有了大量的研究。常用的特征分類方法包括線性判別式分析(LDA),人工神經網絡(ANN),支持向量機(SVM),樸素貝葉斯(Naive Bayesian)等。而深度學習具有強大的處理非線性和高維數據的能力,能夠自動從原始數據中提取有效信息,并且引入了詞嵌入(Word Embeding)的機制,將文本數據映射到一個低維度的詞向量,為文本的表示方法引入語義信息。因此很多深度學習的方法也被應用到文本特征提取及分類中。
卷積神經網絡和循環神經網絡是常見的兩種深度學習網絡結構。卷積神經網絡連接稀疏,卷積核參數共享,減小了模型存儲容量,統計效率高。循環神經網絡,考慮上下文的語義建模,符合文本的時序特性。結合兩者優勢在網絡低層提取詞語組合特征,在網絡高層提取文本時序特征。整個網絡中任何一層的特征均對分類結果有貢獻,注重網絡低層的特征學習更是有助于整體網絡學習文本表達。
因此,需要一種基于多分類節點卷積循環網絡的文本特征提取及分類方法,引入輔助分類節點,增加輔助支路加強對低層特征的學習。
發明內容
本發明旨在解決以上現有技術的問題。提出了一種強化低層特征學習和提高模型的泛化能力的基于多分類節點卷積循環網絡的文本特征提取及分類方法。本發明的技術方案如下:
一種基于多分類節點卷積循環網絡的文本特征提取及分類方法,其包括以下步驟:
步驟1:采用包括分詞、清洗文本、詞向量訓練在內的步驟預處理文本語料
步驟2:使用一維卷積網絡獲取步驟1預處理后的多個詞語的組合特征;
步驟3:使用雙向長短期記憶循環網絡提取步驟2所得的特征的時序信息,生成句子的特征表達,并作為主分類器的特征輸入;
步驟4:使用多重卷積網絡將步驟2所得的特征再次組合,生成句子的特征表達,并作為輔分類器的特征輸入;
步驟5:加權得到總損失函數,采用RMSprop基于批量梯度下降優化損失函數降至最低;
步驟6:對主分類器進行性能測試并實現分類。
進一步的,所述步驟1:采用包括分詞、清洗文本、詞向量訓練在內的步驟預處理文本語料,具體包括:
分詞:對中文詞語根據語義分詞,英文需根據空格切割單詞;
清洗文本:將大寫英文字符轉換為小寫,去除文本中對分類無明顯幫助的停用詞匯、標點符號及數字;
詞向量訓練:通過Glove算法,根據復現詞語的共現情況,生成d維的詞向量。
進一步的,所述步驟2采用一維卷積網絡,以滑動的卷積窗口抽取詞向量間的詞語組合特征,具體包括:固定文本包含m1個詞語,每個詞對應d維的詞向量,不足長度的文本通過0填充補足,超出長度的文本需要將其在尾部截斷,設定滑動窗口大小為k,卷積核為n,表示句長m1的文本經n個卷積核一維卷積的輸出矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810384910.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種搜索應用程序內信息的方法及設備
- 下一篇:一種大數據平臺運維管理系統





