[發(fā)明專利]一種基于語境詞向量和深度學(xué)習(xí)的情感分析方法在審
| 申請?zhí)枺?/td> | 201810307751.6 | 申請日: | 2018-04-08 |
| 公開(公告)號: | CN108427670A | 公開(公告)日: | 2018-08-21 |
| 發(fā)明(設(shè)計)人: | 胡向東;錢宏偉;許奧狄;白銀;周歡 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京同恒源知識產(chǎn)權(quán)代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語境詞 向量 情感分析 自然語言處理 準(zhǔn)確率 情感傾向性分析 學(xué)習(xí) 高維數(shù)據(jù) 平臺用戶 情感傾向 情感特征 情感信息 用戶評論 語義信息 語境 詞語 文本 評論 分析 | ||
本發(fā)明涉及一種基于語境詞向量和深度學(xué)習(xí)的情感分析方法,屬于自然語言處理領(lǐng)域。本發(fā)明公開了自然語言處理領(lǐng)域中一種情感分析方法,涉及使用語境詞向量和深度學(xué)習(xí)結(jié)合的方法對電商平臺的用戶評論做情感傾向性分析,該方法通過訓(xùn)練語境詞向量,結(jié)合深度學(xué)習(xí)解決目前情感分析問題中難以處理文本高維數(shù)據(jù)、無法提取情感特征、準(zhǔn)確率低的問題。本發(fā)明采用語境詞向量得到該語境下詞語的語義信息和情感信息,與現(xiàn)有的技術(shù)相比,該方法能針對電商平臺用戶評論提取更有效的特征,對情感傾向分析具有較高的準(zhǔn)確率和召回率。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理領(lǐng)域,涉及一種基于語境詞向量和深度學(xué)習(xí)的情感分析方法。
背景技術(shù)
在互聯(lián)網(wǎng)快速發(fā)展的今天,互聯(lián)網(wǎng)信息呈現(xiàn)爆炸式增長,情感分析或意見挖掘已經(jīng)滲入到人們生活的方方面面,京東、淘寶、亞馬遜等互聯(lián)網(wǎng)在線購物平臺,在線音樂平臺、微博、推特等社交網(wǎng)站、新聞傳媒以及政治選舉等等。例如,網(wǎng)上購物已經(jīng)成了人們生活的潮流,針對用戶在購物網(wǎng)站的評論進(jìn)行觀點挖掘及情感分析,不僅可以幫助用戶更好的了解和選購產(chǎn)品,還能幫助產(chǎn)品制造商理解用戶的需求,改進(jìn)自身產(chǎn)品;在微博中,同樣也可以對熱搜事件中用戶的觀點和情感進(jìn)行挖掘和處理,從而觀察出現(xiàn)代人們的生活品質(zhì)、愛好等。傳統(tǒng)的文本情感分析方法多是基于采用提取文本特征和機(jī)器學(xué)習(xí)相結(jié)合的方式來構(gòu)建情感分析模型,在提取文本特征方面的設(shè)計往往需要專家領(lǐng)域知識,人工成本較高,系統(tǒng)的泛化性能和遷移性較差,且不能提取出深層的語義信息,當(dāng)語料過多時,會使得特征向量維數(shù)過大,增加訓(xùn)練難度,同時也容易導(dǎo)致過擬合。
最近幾年隨著word2vec和GloVe等詞語分布表示工具的出現(xiàn)和完善,詞語的表示信息越來越豐富,每個詞向量不僅包含較為豐富的語義信息,同時每個詞向量之間還存在一定的關(guān)系,可以通過簡單的運算來得到預(yù)料中未包含詞語的向量信息。自2012年來,ConvolutionalNeural Network(CNN)模型在圖像識別中大放異彩,更多的研究者們開始將CNN模型移植到自然語言處理的任務(wù)上來,例如文本分類,情感分類等任務(wù),并取得了一定成果,但是CNN模型并未考慮文本的時序特征,所以RecurrentNeuralNetwork(RNN)和LongShortTimeMemory(LSTM)模型被更多的使用在自然語言處理中,這個模型能實時捕獲文本的時序特征和全局特征。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種基于語境詞向量和深度學(xué)習(xí)的情感分析方法,通過語境詞向量訓(xùn)練模型擴(kuò)展語義詞向量得到詞語的語境特征,消除詞語歧義,將評論語句劃分區(qū)域以提取文本局部特征,結(jié)合Bi-LSTM模型提取文本時序特征和全局特征,以解決CNN模型提取特征信息不足的缺點。
為達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于語境詞向量和深度學(xué)習(xí)的情感分析方法,包括以下步驟:
S1:初始化,生成一個內(nèi)容為空的數(shù)據(jù)庫,通過數(shù)據(jù)采集系統(tǒng)得到帶標(biāo)簽的用戶評論數(shù)據(jù),將數(shù)據(jù)保存到生成的數(shù)據(jù)庫中;
S2:數(shù)據(jù)預(yù)處理,將采集到的用戶評論數(shù)據(jù)進(jìn)行清洗,根據(jù)每條評論的標(biāo)簽將數(shù)據(jù)分類;
S3:詞向量構(gòu)建,利用word2vec工具得到文本語義詞向量,再利用CoVe(ContextVectors)模型擴(kuò)展文本語義詞向量得到語境詞向量;
S4:情感分析模型構(gòu)建,利用區(qū)域卷積神經(jīng)網(wǎng)絡(luò)CNN提取輸入文本特征的局部特征,結(jié)合Attention機(jī)制給對CNN的輸出向量賦予不同的權(quán)重,組合得到句子向量,再利用BI-LSTM模型提取文本的全局特征;
S5:將S4的輸出作為softmax函數(shù)的輸入,對所得到的特征進(jìn)行分類,得到用戶評論的情感傾向,包括正立、中性和負(fù)立。
進(jìn)一步,所述步驟S2具體為:根據(jù)正則匹配算法濾除文本中無用的標(biāo)點符號和語氣詞,使用深度學(xué)習(xí)分詞算法,結(jié)合收集的情感詞典,達(dá)到比較精確的分詞結(jié)果,然后統(tǒng)計詞頻,并根據(jù)詞頻建立詞典;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810307751.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 計算機(jī)化的自然語言查詢意圖分派
- 自然語言處理方法及相關(guān)設(shè)備、系統(tǒng)和存儲裝置
- 一種支持多種服務(wù)的自然語言處理方法、裝置及系統(tǒng)
- 一種自然語言處理方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 自然語言處理模型的訓(xùn)練方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基于語義識別的自然語言處理方法、裝置和系統(tǒng)
- 一種自然語言處理方法和裝置
- 自然語言轉(zhuǎn)換處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種基于NLP自然語言的自動提取方法及裝置
- 藏語自然語言訓(xùn)練方法及數(shù)據(jù)處理平臺





