[發(fā)明專利]一種基于深度學(xué)習(xí)的文本情感分類方法在審
| 申請?zhí)枺?/td> | 202010245891.2 | 申請日: | 2020-03-31 |
| 公開(公告)號: | CN111368088A | 公開(公告)日: | 2020-07-03 |
| 發(fā)明(設(shè)計)人: | 馮翱;宋馨宇;王維寬;徐天豪 | 申請(專利權(quán))人: | 成都信息工程大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 成都智涌知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 51313 | 代理人: | 周正輝 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 文本 情感 分類 方法 | ||
1.一種基于深度學(xué)習(xí)模型的文本情感分類方法,其特征在于,所述方法包括:
步驟1:準(zhǔn)備標(biāo)準(zhǔn)數(shù)據(jù)集或自行采集數(shù)據(jù);
步驟2:若選擇自行采集數(shù)據(jù),需要對采集到的文本數(shù)據(jù)進(jìn)行預(yù)處理,所述預(yù)處理包括:數(shù)據(jù)清洗、分詞和詞性標(biāo)注;
步驟3:將標(biāo)準(zhǔn)數(shù)據(jù)集或預(yù)處理后的采集數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,劃分比例分別為60%,20%,20%;
步驟4:將預(yù)處理好的數(shù)據(jù)集的文本均轉(zhuǎn)換為詞向量表示,并利用GloVe構(gòu)造詞向量字典;
步驟5:根據(jù)步驟4得到的詞向量字典,將數(shù)據(jù)集中的每個詞查字典,把得到的對應(yīng)詞向量作為輸入,將其輸入到構(gòu)建好的一維卷積混合神經(jīng)網(wǎng)絡(luò)模型中,進(jìn)行特征提取和預(yù)測分類,所述一維卷積混合神經(jīng)網(wǎng)絡(luò)模型自底向上由五層結(jié)構(gòu)組成,包括輸入層、一維卷積層、池化層、循環(huán)神經(jīng)網(wǎng)絡(luò)層和Softmax層,詞向量進(jìn)入所述混合神經(jīng)網(wǎng)絡(luò)模型后經(jīng)過所述循環(huán)神經(jīng)網(wǎng)絡(luò)層得到平均輸出值γ,并將所述平均輸出值γ輸出到Softmax層;
步驟6:預(yù)測文本的情感分類,將所述平均輸出值γ輸入到所述模型的第五層Softmax層,用Softmax作為分類器,得到輸入文本在各個情感類別下的概率;
步驟7:在網(wǎng)絡(luò)超參數(shù)不變的前提下,將訓(xùn)練集中的數(shù)據(jù)分批進(jìn)行多輪訓(xùn)練,以調(diào)整網(wǎng)絡(luò)參數(shù),直到達(dá)到最大迭代次數(shù)或滿足提前截止條件;
步驟8:在驗證集上運行步驟7得到的網(wǎng)絡(luò),并使用不同的超參數(shù)進(jìn)行多次訓(xùn)練,選擇在驗證集上取得最高精度的超參數(shù);
步驟9:使用步驟8的超參數(shù)訓(xùn)練得到的網(wǎng)絡(luò)在測試集上運行,得到最終的分類精度指標(biāo)。
2.如權(quán)利要求1所述的文本情感判別方法,其特征在于,步驟5具體包括:
步驟51:將詞向量輸入到所述模型的第一層輸入層,從步驟4中學(xué)習(xí)的詞向量字典查找詞wi,得到對應(yīng)的詞向量xi∈Rk,k為詞向量的維度;
步驟52:將詞向量xi輸入到所述混合神經(jīng)網(wǎng)絡(luò)模型的第二層一維卷積層,一維卷積層用于提取文本的n-gram特征,并使得特征維度與輸入文本保持一致,詞向量每一維分別使用不同的一維卷積,一組一維卷積核表示為wc∈Rh×k,可生成一個特征圖c,h為滑動窗口大小;
步驟53:將所述特征圖c輸入到所述混合神經(jīng)網(wǎng)絡(luò)的第三層池化層,池化操作的目標(biāo)是選取文本各個位置最重要的特征,對于每一個特征圖c,第i列的最大特征值經(jīng)過池化層得到其中一個特征向量其中,ci∈Rk,L為文本長度;
步驟54:經(jīng)過池化層得到特征向量構(gòu)成的矩陣V=[v1,...,vN],將其按列展開為[α1,...,αL],N表示特征向量v的數(shù)量,將矩陣V輸入到所述模型的第四層循環(huán)神經(jīng)網(wǎng)絡(luò)層中,循環(huán)神經(jīng)網(wǎng)絡(luò)層使用雙向LSTM網(wǎng)絡(luò),向量αt作為雙向LSTM網(wǎng)絡(luò)t時刻的輸入,由式(2)和式(3)分別求得t時刻前向和后向的隱藏狀態(tài)和
其中,表示t時刻前向網(wǎng)絡(luò)的單元狀態(tài),表示t時刻后向網(wǎng)絡(luò)的單元狀態(tài),和表示t時刻前后向網(wǎng)絡(luò)的單元隱藏狀態(tài),表示t-1時刻前向網(wǎng)絡(luò)的單元狀態(tài),表示t-1時刻后向網(wǎng)絡(luò)的單元狀態(tài),表示t-1時刻前向網(wǎng)絡(luò)的單元隱藏狀態(tài),表示t-1時刻后向網(wǎng)絡(luò)的單元隱藏狀態(tài),xt表示:池化層輸出對應(yīng)本層t時刻的輸入數(shù)據(jù);
并輸出為:
其中,βt表示:對前后向狀態(tài)加權(quán)、偏置后的輸出,by表示:偏置,和表示:對前后向隱藏狀態(tài)進(jìn)行加權(quán)的權(quán)值,βt∈Rd,d為隱藏狀態(tài)ht的維度,各個時刻的輸出取平均值得到平均輸出值γ:
將所述平均輸出值γ輸入到所述混合神經(jīng)網(wǎng)絡(luò)模型的第五層Softmax層進(jìn)行分類。
3.如權(quán)利要求2所述的文本情感判別方法,其特征在于,步驟4具體包括:
步驟41:基于所述訓(xùn)練集、驗證集和測試集,通過計算得到詞的詞向量并構(gòu)成共現(xiàn)矩陣X,所述共現(xiàn)矩陣X的元素Xij表示單詞i和單詞j共同出現(xiàn)在同一個統(tǒng)計窗口的次數(shù);
步驟42:調(diào)用GloVe訓(xùn)練共現(xiàn)矩陣X中的文本詞向量,根據(jù)所述共現(xiàn)矩陣X,可得到固定維度的詞向量和詞向量字典。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都信息工程大學(xué),未經(jīng)成都信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010245891.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





