[發(fā)明專利]文本情感分析方法、系統(tǒng)及計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201810035601.4 | 申請日: | 2018-01-15 |
| 公開(公告)號: | CN108170681A | 公開(公告)日: | 2018-06-15 |
| 發(fā)明(設計)人: | 王斌;唐玲艷;劉家廣;嚴毅康;王淼;盛津芳 | 申請(專利權(quán))人: | 中南大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04 |
| 代理公司: | 長沙朕揚知識產(chǎn)權(quán)代理事務所(普通合伙) 43213 | 代理人: | 何湘玲 |
| 地址: | 410083 *** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 句子 向量 文本情感 詞性 計算機可讀存儲介質(zhì) 注意力 句子向量 文本單詞 隱藏層 攜帶 分析 詞性標注信息 情感分類模型 人工智能技術 準確度 詞性標注 分類結(jié)果 情感分類 網(wǎng)絡模型 向量矩陣 原始文本 詞向量 求和 預設 加權(quán) 嵌入 | ||
本發(fā)明涉及人工智能技術領域,公開了一種文本情感分析方法、系統(tǒng)及計算機可讀存儲介質(zhì),以提高文本情感分析的準確度。本發(fā)明方法包括:將任一句子對應的詞向量輸入至預設的LSTM網(wǎng)絡模型,得到各詞的隱藏層向量;對所獲取的文本單詞集進行詞性標注,對攜帶詞性標注信息的文本單詞集訓練,并對訓練生成的詞性向量矩陣以詞為單位進行拆分,得到各詞所對應的詞性向量;以句子為單位,根據(jù)句子內(nèi)各詞所對應的隱藏層向量和詞性向量進行詞嵌入加權(quán)求和注意力分析,得到各句子攜帶注意力信息的句子向量,并以該攜帶注意力信息的句子向量作為情感分類模型的輸入,進而得到各句子的情感分類結(jié)果和/或所述原始文本的分類結(jié)果。
技術領域
本發(fā)明涉及人工智能技術領域,尤其涉及一種文本情感分析方法、系統(tǒng)及計算機可讀存儲介質(zhì)。
背景技術
隨著微博和Twitter等社交媒體的興起,人們不僅從網(wǎng)絡上獲取信息,同時也通過社交媒體充分的發(fā)表自己的觀點和分享自己的體驗。例如:評論熱點事件、描述對影片的看法、描述對一首歌的看法、描述產(chǎn)品體驗等,從而產(chǎn)生了大量的帶主觀情感信息的文本,通過對文本進行情感分析,可以進行輿情監(jiān)測,為政府全面掌握大眾的思想動態(tài),做出正確的輿論引導提供依據(jù)。還可以挖掘用戶對產(chǎn)品的喜好程度,幫助商家了解產(chǎn)品優(yōu)勢和潛在問題,以便為用戶提供更好的產(chǎn)品體驗。同時還可以幫助用戶從海量評論數(shù)據(jù)中提煉出核心觀點,從而對產(chǎn)品的真實情況一目了然。因此可以提高用戶體驗。情感分析對于情感表達的應用也有幫助,例如機器人通過跟人聊天,然后AI可以用情感分析器對實體進行高效率的自動化標注,實現(xiàn)其專屬的個人情感詞典。了解用戶的喜好甚至喜好程度,并利用這些信息進行建模,通過模型訓練后能夠?qū)崿F(xiàn)個性化,而不是像Siri這種號稱個人助手,實際上卻很不個性化。并且對情感表達來說,可以實現(xiàn)人機對話系統(tǒng)對情感的誘導。并且在聊天過程中,機器人在判斷出情感之后就可以用不同的回復來改變情感傾向,比如對話系統(tǒng)能判斷接下來的哪一句答復能讓用戶產(chǎn)生一個情感傾向,如高興、驚訝或傷心等。能夠讓人產(chǎn)生不一樣的感受就是在進一步實現(xiàn)更人性化的交互。以上廣泛的應用促進了文本情感技術的發(fā)展。
目前主要的情感分析方法有兩類:第一種是基于情感詞典的方法,基于詞典的方法主要通過構(gòu)建情感詞典和規(guī)則,對文本進行預處理、分詞、句法分析,最后計算情感值,最后通過情感值來作為文本的情感傾向依據(jù)。中文的情感詞典主要有中國知網(wǎng)發(fā)布的HowNet和臺灣大學NTUSD兩個情感詞典。第二種是基于統(tǒng)計的機器學習方法,主要利用人工標注的訓練語料,提取文本特征,最后構(gòu)建分類器。常用的文本情感分析方法有樸素貝葉斯、支持向量機、最大熵方法等,這些方法都可以被劃分為淺層學習方法。上述方法雖然具備擴展性強的優(yōu)點,但是人工成本大,且忽略了上下文語義的信息。
情感分析(SA)又稱為傾向性分析和意見挖掘,它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。情感分析技術大致可以分為基于詞典的方法和基于統(tǒng)計的方法,其中基于統(tǒng)計的機器學習方法是目前的主流方法。
面對大規(guī)模以及風格各異的評論,情感分析的準確度就成為了情感分析技術的瓶頸。采用深度學習的技術是提高準確率的方法之一。目前情感分析的思想主要有:
(1)、采用支持向量機和TF-IDF計算特征項權(quán)值來進行情感分析;
(2)、將分詞后的文本利用word2vec訓練轉(zhuǎn)換成詞向量以后,利用支持向量機進行情感分析;
(3)將分詞后的文本利用word2vec訓練轉(zhuǎn)換成詞向量以后,采用注意力機制和長短期記憶網(wǎng)絡的情感分析方法進行情感分析;
(4)基于卷積神經(jīng)網(wǎng)絡和注意力模型的情感分析方法。
LSTM(Long Short Term Memory Neural Networks,長短時記憶神經(jīng)網(wǎng)絡)是屬于循環(huán)神經(jīng)網(wǎng)絡,首先它減少機器學習過程中的人工成本,并且解決了卷積神經(jīng)網(wǎng)絡的長期依賴問題,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡模型均未考慮輸入和輸出的相關性和句子的結(jié)構(gòu)信息,并且在訓練時很容易發(fā)生過擬合,而結(jié)合現(xiàn)有的情感分析研究現(xiàn)狀,情感分析有以下特點:
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中南大學,未經(jīng)中南大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810035601.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





