[發明專利]基于循環神經網絡變體和卷積神經網絡的文本分類方法有效
| 申請號: | 201811216633.0 | 申請日: | 2018-10-18 |
| 公開(公告)號: | CN109376242B | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 李云紅;梁思程;湯汶;慕興;張軒;張歡歡;聶夢瑄 | 申請(專利權)人: | 西安工程大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06N3/04;G06N3/08;G06F40/30;G06F40/289 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 杜娟 |
| 地址: | 710048 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 循環 神經網絡 變體 卷積 文本 分類 方法 | ||
本發明公開了一種基于循環神經網絡變體和卷積神經網絡的文本分類算法,具體為:步驟1,對數據集SogouC和數據集THUCNews進行預處理,并將兩個數據集均分為訓練集和測試集,并將各自訓練集和測試集中的文本數據均訓練為句向量;步驟2,利用步驟1中兩個數據集中的訓練集中文本建立BGRU?CNN混合模型,步驟3,建立目標函數,采用隨機梯度下降方法訓練經步驟2建立好的BGRU?CNN混合模型;步驟4,將兩個數據集中將測試集的文本句向量輸入經步驟3訓練好的BGRU?CNN混合模型中,得到分類結果。本發明解決了現有技術中存在的長文本在文本分類時提取語義關鍵特征難度大,分類效果差的問題。
技術領域
本發明屬于自然語言處理方法技術領域,涉及一種基于循環神經網絡變體和卷積神經網絡的文本分類方法。
背景技術
當前,互聯網發展迅猛,每時每刻產生大量文本信息。如何對大量文本進行有效的分類以及管理,進而快速了解信息價值,是許多研究者關注的焦點。其中,長文本內容多,包含多個不同關鍵字。所以,在文本分類中,保持長文本的結構完整,保持文本詞之間的順序,學習文本上下文語義,可以提高長文本的文本分類效果。
文本分類主要包括文本表示、分類器的選擇與訓練、分類結果的評價與反饋等工作。其中文本表示是影響分類結果的關鍵步驟。詞袋模型在文本表示中應用最為廣泛,它將文本表示為高維度,高稀疏的One-hot向量。但One-hot向量因未考慮文本的語序和上下詞之間的聯系,詞之間相互獨立,導致文本信息大量丟失。為了克服詞袋模型文本表示的缺陷,詞向量的概念應運而生,將詞表示成一個定長的連續的稠密向量。Skip-gram和CBOW神經網絡模型提升了詞向量訓練的效率。PV-DM神經網絡模型,考慮了文本的語序信息,將文本表示為定長的句向量或者段落向量。
在文本的分類器訓練方面,主要采用淺層的樸素貝葉斯,支持向量機,最大熵模型等機器學習模型。而基于時間序列的循環神經網絡模型,解決了淺層機器學習模型對關聯性強的樣本分類效果差,無法學習到類別內信息等問題。卷積神經網絡用于文本處理,通過共享權重提升了文本分類的性能。
目前暫時沒有出現將循環神經網絡變體和卷積神經網絡進行結合進行文本分類的有效算法。
發明內容
本發明的目的是提供一種基于循環神經網絡變體和卷積神經網絡的文本分類算法,將循環神經網絡變體和卷積神經網絡結合,解決了現有技術中存在的長文本在文本分類時提取語義關鍵特征難度大,分類效果差的問題。
本發明所采用的技術方案是,基于循環神經網絡變體和卷積神經網絡的文本分類算法,具體按照以下步驟實施:
步驟1,對數據集SogouC和數據集THUCNews進行預處理,并將經過預處理的數據集SogouC和數據集THUCNews均分為訓練集和測試集,并將各自訓練集和測試集中的文本數據均訓練為句向量;
步驟2,利用步驟1中兩個數據集中的訓練集中文本建立BGRU-CNN混合模型,具體為:將兩個數據集中訓練集的文本句向量,經過循環層捕捉句子上下文信息,卷積層提取文本的關鍵特征,通過Softmax分類,輸出文本屬于某個類別的概率;
步驟3,建立目標函數,采用隨機梯度下降方法訓練經步驟2建立好的BGRU-CNN混合模型;
步驟4,將兩個數據集中將測試集的文本句向量輸入經步驟3訓練好的BGRU-CNN混合模型中,得到分類結果。
對數據集SogouC和數據集THUCNews進行預處理具體為:采用jieba中文分詞進行對數據集SogouC和數據集THUCNews進行分詞,去除停用詞和標點符號。
數據集SogouC和數據集THUCNews中訓練集中的文本數據量與測試集中的文本數據量之比為7:3。
步驟1中通過PV-DM模型將兩個數據集中各自的訓練集和測試集中的文本數據均訓練為句向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安工程大學,未經西安工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811216633.0/2.html,轉載請聲明來源鉆瓜專利網。





