[發明專利]一種基于GRU模型的老撾語情感分析方法在審
| 申請號: | 201910215265.6 | 申請日: | 2019-03-21 |
| 公開(公告)號: | CN110083825A | 公開(公告)日: | 2019-08-02 |
| 發明(設計)人: | 周蘭江;陳琢;張建安;周楓 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 情感分析 老撾語 向量空間 變體 同義詞 詞表 自然語言處理 詞性分析 數值向量 算法模型 文本內容 文本語義 細胞狀態 向量運算 隱藏狀態 詞向量 輸入門 相似度 聚類 合成 輸出 學習 更新 研究 | ||
1.一種基于GRU模型的老撾語情感分析方法,其特征在于:包括如下步驟:
Step1,老撾語情感分析語料預處理,并進行數據集劃分,訓練集占90%,測試集占10%;
Step2,Word2Vec訓練語料的詞向量,計算生成句子相應的特征向量;
Step3,使用Word2Vec生成含有句子情感的特征向量來訓練GRU模型;
Step4,按照訓練集方式構建測試集,輸入到GRU,進行情感分類。
2.根據權利要求1所述的一種基于GRU模型的老撾語情感分析方法,其特征在于,所述語料數據分為正類、負類,其中語料預處理的步驟為:
Step1.1:通過對老撾語語料切分音節,再完成音節和詞典的最長匹配,然后得到的分詞結果和錯誤詞典進行匹配,以期糾正部分錯詞;
Step1.2:最后利用制定的老撾語中字母、數字分布規則,對分詞結果中相應的詞串進行正則表達式匹配,校正錯誤的分詞;
Step1.3:分詞完成后,去除停用詞。
3.根據權利要求1所述的一種基于GRU模型的老撾語情感分析方法,其特征在于:所述步驟Step2通過Word2Vec詞到向量的方法對老撾語句子進行詞級特征向量訓練,具體步驟為:
通過Word2Vec訓練預料的詞向量,對每個句子的所有詞向量取均值,來生成對應句子的向量,然后利用Word2Vec模型進行訓練,基于Hierarcical Softmax,訓練模式選用CBOW模型:該網絡結構包含了三層,分別為輸入層、投影層和輸出層,假設存在樣本(Context(w),w),其中Context(w)是由w前后各c個詞構成作輸入樣本train_X,w作輸出值train_Y,最終計算生成句子相應的詞向量;其中:
(1)輸入層:
包含Context(w)中2c個詞向量V(Context(w)_1),V(Context(w)_2),......,V(Context(w)_2c),組成,詞向量長度相同;
(2)投影層:
將輸入層2c個詞向量累加后求平均作為X_w;
(3)輸出層:
輸出層是對應一棵霍夫曼樹,其中葉子節點就是對應詞匯表中的詞,用θ_i表示節點的權重,是一個向量,根節點是投影層的輸出X_w。
4.根據權利要求1所述的一種基于GRU模型的老撾語情感分析方法,其特征在于,所述步驟Step3的具體步驟為:
使用Step2中Word2Vec生成含有句子情感的向量來作為GRU模型輸入,學習率設置為0.1,0.01,0.001,使用網格搜索方法選擇合適的學習率,迭代次數設置為10000。
5.根據權利要求1所述的一種基于GRU模型的老撾語情感分析方法,其特征在于:所述步驟Step4的具體步驟為:按照訓練集方式構建測試集,將詞向量輸入到GRU模型,進行情感分類,訓練的預測結果是一個[0,1]區間的連續的實數,將0.5設為閾值,也就是將大于0.5的結果判斷為正類,將小于0.5的結果判斷為負類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910215265.6/1.html,轉載請聲明來源鉆瓜專利網。





