[發明專利]一種基于GRU模型的老撾語情感分析方法在審
| 申請號: | 201910215265.6 | 申請日: | 2019-03-21 |
| 公開(公告)號: | CN110083825A | 公開(公告)日: | 2019-08-02 |
| 發明(設計)人: | 周蘭江;陳琢;張建安;周楓 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 情感分析 老撾語 向量空間 變體 同義詞 詞表 自然語言處理 詞性分析 數值向量 算法模型 文本內容 文本語義 細胞狀態 向量運算 隱藏狀態 詞向量 輸入門 相似度 聚類 合成 輸出 學習 更新 研究 | ||
本發明涉及一種基于GRU模型的老撾語情感分析方法,它屬于自然語言處理和深度學習技術領域。GRU作為LSTM的一種變體,將忘記門和輸入門合成了一個單一的更新門。同時還混合了細胞狀態和隱藏狀態。最終的模型比標準的LSTM模型要簡單,也是非常流行的變體。Word2Vec就是將詞表征為實數值向量的一種高效的算法模型,其利用深度學習的思想,可以通過訓練,把對文本內容的處理簡化為K維向量空間中的向量運算,而向量空間上的相似度可以用來表示文本語義上的相似。Word2Vec輸出的詞向量可以被用來做很多NLP相關的工作,比如聚類、找同義詞、詞性分析等等。利用基于GRU的老撾語情感分析模型,可以有效的對老撾語進行情感分析,因此本發明具有一定的研究意義。
技術領域
本發明涉及一種基于GRU(門控循環單元)模型的老撾語情感分析方法,屬于自然語言處理中小語種識別領域。
背景技術
情感分析是幫助用戶快速獲取、整理和分析相關信息,對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理。在一般情況下將其分為正類、負類,其中對于贊美和肯定的情感分為正類;對于批評和否定的情感分為負類。
情感分類是指根據文本所表達的含義和情感信息將文本劃分成褒揚的或貶義的兩種或幾種類型,是對文本作者傾向性和觀點、態度的劃分。
情感分類作為一種特殊的分類問題,既有一般模式分類的共性問題,也有其特殊性,如情感信息表達的隱蔽性、多義性和極性不明顯等。針對這些問題人們做了大量研究,提出了很多分類方法。這些方法可以按機器學習方法歸類,也可以按情感文本的特點劃分。
根據機器學習方法所使用訓練樣本的標注情況,情感文本分類可以大致分為三類:有監督學習方法:基于有監督學習的情感分類方法使用機器學習方法用于訓練大量標注樣本;半監督學習方法:基于半監督學習的情感分類方法是通過在少量標注樣本上訓練,并在大量未標注樣本上進行學習的方式構建分類模型;無監督學習方法:基于無監督學習的情感分類方法是指僅使用非標注樣本進行情感分類建模。
Word2Vec是Google于2013年開源推出的一個獲取Word to Vector的工具包。在Word2Vec出現以前,比較通用的解決步驟是WordNet,它是一個類似詞典一樣的存在,不能做到實時更新,雖然能夠找到一個詞的同義詞,但是詞之間的相似度到底有多高這個指標很難度量。而傳統One-Hot表示法是借用一個固定長度的詞匯表,每個詞代表其中的一維。這種表示方法太過稀疏,而且無法度量詞語之間的相似性。
GRU神經網絡單元是2014年由Cho等人基于LSTM(長短期記憶網絡)變形而來,旨在解決標準RNN中出現的梯度消失問題。GRU保持了LSTM的效果同時又使結構更加簡單,所以它也非常流行。
傳統方法都限于挖掘句中詞之間的詞匯特征以及句法特征,而在語言中往往蘊含詞語之間的隱含信息及語義特征,會對感情信息的識別起到很大作用。對于感情表示準確的語句來說大多方法可以精準識別,但在老撾語情感分析領域仍然存在問題,相較與中文和英文的情感分析,老撾語情感分析有以下幾個問題:(1)人工標注語料不充足,語料爬取困難,數據預處理難度較大;(2)國內對老撾語方向研究的內容較少之又少等。
發明內容
本發明要解決的技術問題是提出了一種基于GRU模型的老撾語情感分析方法,利用Word2Vec先進行語料詞向量的訓練,通過計算詞語間的余弦距離進行聚類并擴充到詞典。利用擴充詞典作為老撾語語句詞向量生成器將老撾語語句轉化為語句向量,然后使用Word2Vec進行訓練生成相應的特征向量,用于解決老撾語情感分析的準確率不高等問題。
本發明采用的技術方案是:一種基于GRU模型的老撾語情感分析方法,具體步驟如下:
Step1,老撾語情感分析語料預處理,并進行數據集劃分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910215265.6/2.html,轉載請聲明來源鉆瓜專利網。





