[發(fā)明專利]基于循環(huán)神經網絡變體和卷積神經網絡的文本分類方法有效
| 申請?zhí)枺?/td> | 201811216633.0 | 申請日: | 2018-10-18 |
| 公開(公告)號: | CN109376242B | 公開(公告)日: | 2020-11-17 |
| 發(fā)明(設計)人: | 李云紅;梁思程;湯汶;慕興;張軒;張歡歡;聶夢瑄 | 申請(專利權)人: | 西安工程大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06N3/04;G06N3/08;G06F40/30;G06F40/289 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 杜娟 |
| 地址: | 710048 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 循環(huán) 神經網絡 變體 卷積 文本 分類 方法 | ||
1.基于循環(huán)神經網絡變體和卷積神經網絡的文本分類方法,其特征在于,具體按照以下步驟實施:
步驟1,對數(shù)據集SogouC和數(shù)據集THUCNews進行預處理,并將經過預處理的數(shù)據集SogouC和數(shù)據集THUCNews均分為訓練集和測試集,并將各自訓練集和測試集中的文本數(shù)據均訓練為句向量;其中,對數(shù)據集SogouC和數(shù)據集THUCNews進行預處理具體為:采用jieba中文分詞進行對數(shù)據集SogouC和數(shù)據集THUCNews進行分詞,去除停用詞和標點符號,所述數(shù)據集SogouC和數(shù)據集THUCNews中訓練集中的文本數(shù)據量與測試集中的文本數(shù)據量之比為7:3;
通過PV-DM模型將兩個數(shù)據集中各自的訓練集和測試集中的文本數(shù)據均訓練為句向量,具體為:文本數(shù)據通過神經網絡訓練得到詞向量W,將詞向量W與段落矩陣D拼接在一起,新增段落id被看做新的詞,每預測一個詞,就使用該詞所在段落的段落id作為新增加的輸入,在一個文本數(shù)據的訓練過程中,段落id保持不變,共享著同一個段落矩陣,使用隨機梯度下降法訓練所有參數(shù),訓練結束后得到定長的實向量,即段落向量,即就是句向量;
步驟2,利用步驟1中兩個數(shù)據集中的訓練集中文本建立BGRU-CNN混合模型,具體為:將兩個數(shù)據集中訓練集的文本句向量,經過循環(huán)層捕捉句子上下文信息,卷積層提取文本的關鍵特征,通過Softmax分類,輸出文本屬于某個類別的概率;
其中,利用步驟1中兩個數(shù)據集中的訓練集中文本建立BGRU-CNN混合模型的具體步驟為:
步驟2.1,經過循環(huán)神經網絡保留文本的語序信息
采用雙向循環(huán)結構分別捕獲兩個數(shù)據集的訓練集文本第i個句子Si上文L(Si)和句子下文R(Si)的信息,計算方式如公式(1)和公式(2);
L(Si)=f(W(l)L(Si-1)+W(sl)e(Si-1)), (1)
R(Si)=f(W(r)R(Si+1)+W(sr)e(Si+1)), (2)
其中,公式(1)中,e(Si-1)表示句子Si-1的句向量,L(Si-1)表示句子Si-1的上文信息,W(sl)表示Si句子和Si-1句子語義信息組合的權陣,W(l)為隱藏層的轉換權陣,f為激活函數(shù),然后,通過公式(3)構成訓練集文本第i個句子的句向量xi,保留了句子左側的信息L(Si)和右側的信息R(Si);
xi=[L(Si);e(Si);R(Si)] (3)
采用GRU結構進行神經元的節(jié)點設計,GRU網絡節(jié)點通過重置門r和更新門z對輸入信息進行處理,t時刻的激活狀態(tài)ht計算方式如公式(4);
ht-1是t-1時刻的激活狀態(tài),與ht呈線性關系,表示向量矩陣對應元素相乘;
zt表示t時刻更新門的狀態(tài),計算方式為公式(5);
t時刻的激活狀態(tài)hc的計算方式如公式(6);
t時刻的重置門rt的計算方式如公式(7);
zt=σ(Wzxt+Uzht-1), (5)
rt=σ(Wrxt+Urht-1), (7)
其中,σ為sigmoid函數(shù),xt是t時刻該節(jié)點輸入的句向量,Wz,Wx,Wr和Uz,U,Ur是更新門z、當前候選的激活狀態(tài)hc和重置門r要訓練的權重參數(shù);
步驟2.2,根據循環(huán)層,分別得到兩個訓練集中的整個文本的語序特征句向量xi后,使用CNN卷積神經網絡進行深層次特征的提取,最后經Softmax分類,得到分類結果;具體按照以下步驟實施:
步驟2.2.1在循環(huán)層獲取所有句向量xi后,使用CNN網絡進行特征yi的提取,計算方式如公式(8)所示;
yi=f(w·xi:h+b), (8)
其中,卷積核用w∈Rhk來表示,h和k分別表示卷積核的窗口高度和寬度,用來對循環(huán)層的輸出進行卷積,xi:h表示輸入特征向量第i行到第h行的特征值,b為偏置項,f為激活函數(shù);
獲取所有yi后,通過公式(9),構建關鍵特征圖Y;
Y=[y1,y2,y3...yn], (9)
然后使用最大池化層來確定文本的最佳特征,計算方式如公式(10)所示;
步驟2.2.2,得到最佳特征y,然后將其輸入分類層分類,分類層采用dropout方式將最佳特征y連接到Softmax分類器中,其輸出向量O的計算方式如公式(11)所示:
O=f(Wccd+bc), (11)
其中,Wc和bc分別表示Softmax分類器的權重參數(shù)和偏置項,cd為通過dropout產生的向量,f為激活函數(shù);
最后根據輸出向量O預測文本屬于第k類的概率,其計算方式如公式(12)所示;
其中,Ok表示輸出向量O中的第k個元素,N表示類別數(shù);步驟3,建立目標函數(shù),采用隨機梯度下降方法訓練經步驟2建立好的BGRU-CNN混合模型;
步驟4,將兩個數(shù)據集中將測試集的文本句向量輸入經步驟3訓練好的BGRU-CNN混合模型中,得到分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安工程大學,未經西安工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811216633.0/1.html,轉載請聲明來源鉆瓜專利網。





