[發(fā)明專利]一種融合顏文字的多類別情感提取方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110412378.2 | 申請(qǐng)日: | 2021-04-16 |
| 公開(公告)號(hào): | CN113191135A | 公開(公告)日: | 2021-07-30 |
| 發(fā)明(設(shè)計(jì))人: | 駱曦;劉曉曉 | 申請(qǐng)(專利權(quán))人: | 北京聯(lián)合大學(xué) |
| 主分類號(hào): | G06F40/242 | 分類號(hào): | G06F40/242;G06F40/284;G06F40/44;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京馳納智財(cái)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11367 | 代理人: | 蔣路帆 |
| 地址: | 100101 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 文字 類別 情感 提取 方法 | ||
本發(fā)明提供一種融合顏文字的多類別情感提取方法,包括對(duì)文本集進(jìn)行預(yù)處理,還包括以下步驟:將預(yù)處理完成的文本集放入Word2Vec中的Skip?Gram模型進(jìn)行訓(xùn)練,將詞的上下文關(guān)系嵌入到低維空間,得到所有詞語對(duì)應(yīng)的詞向量;構(gòu)建顏文字情感詞典;計(jì)算文檔中顏文字情感概率;計(jì)算文本情感概率;計(jì)算文檔綜合情感概率。本發(fā)明通過計(jì)算相似度提取顏文字的多種情感概率并生成顏文字情感詞典,通過計(jì)算文檔顏文字情感概率,在文本的基礎(chǔ)上融合了顏文字情感信息,以幫助提高用戶情感提取的全面性和準(zhǔn)確性,進(jìn)而提高決策的準(zhǔn)確率,同時(shí)利用神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的高效性和強(qiáng)大的特征學(xué)習(xí)能力為情感提取提供可靠的依據(jù),降低了人工構(gòu)建情感詞典和規(guī)則的依賴。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)與情感分析的技術(shù)領(lǐng)域,特別是一種融合顏文字的多類別情感提取方法。
背景技術(shù)
隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,社交媒體已成為現(xiàn)代人們相互交流和信息傳遞的主要平臺(tái),如論壇、微博、在線評(píng)論等,每天都涌現(xiàn)大量的富含主觀情感的信息。通過分析用戶發(fā)表的信息,能夠識(shí)別其中隱含的情感信息,并且能夠發(fā)現(xiàn)用戶情感的演化規(guī)律,進(jìn)行有價(jià)值的信息預(yù)測(cè),這在互聯(lián)網(wǎng)信息挖掘中具有重要價(jià)值。情感分析是指利用自然語言處理、文本分析和計(jì)算語言學(xué)等方法分析人們的觀點(diǎn)、情感、評(píng)價(jià)、態(tài)度和情緒等信息,其主要目的是基于挖掘結(jié)果進(jìn)行有價(jià)值的信息預(yù)測(cè),并將預(yù)測(cè)結(jié)果以更直觀的方式展示出來。近年來,情感分析技術(shù)在市場(chǎng)營銷、輿論監(jiān)控、政策分析、公共關(guān)系管理方面都有廣泛的應(yīng)用,具有較高的經(jīng)濟(jì)和社會(huì)價(jià)值。
現(xiàn)有情感分析技術(shù)的手段主要有兩種:
(1)基于情感詞典的方法:情感詞對(duì)于文本情感傾向的表達(dá)起著重要作用,基于詞典的方法主要是運(yùn)用情感詞的相關(guān)信息進(jìn)行情感傾向判別。通過制定情感詞典、利用句子語法和詞語出現(xiàn)位置等規(guī)則,對(duì)文本進(jìn)行拆句、分析及匹配詞典,對(duì)情感詞進(jìn)行加權(quán),最后使用情感值作為文本的情感傾向判斷的依據(jù)。情感詞典的準(zhǔn)確率高,但存在召回率比較低的情況;規(guī)則和詞典的構(gòu)建和完善需要大量人力,其質(zhì)量決定了情感分析質(zhì)量,對(duì)于不同的領(lǐng)域,構(gòu)建情感詞典的難度不同,精準(zhǔn)構(gòu)建的成本較高;此外,該方法未考慮詞語上下文對(duì)情感變化的影響。
(2)基于機(jī)器學(xué)習(xí)的方法:將其作為有監(jiān)督分類問題,用已標(biāo)注的文本訓(xùn)練模型,然后使用訓(xùn)練好的模型預(yù)測(cè)未標(biāo)注文本的情感極性,目前較為成熟。卷積神經(jīng)網(wǎng)絡(luò)(CNN)利用多個(gè)卷積核進(jìn)行卷積計(jì)算,可以從不同角度較好的提取文本的局部特征,但不能解決長文本的上下文依賴。長短期記憶網(wǎng)絡(luò)(LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,使用了三門設(shè)計(jì)方法,能夠利用文本序列的能力捕捉到用戶不斷變化的情緒,但識(shí)別局部特征的能力較弱。
顏文字是一種基于字符的表情符號(hào),利用計(jì)算機(jī)字符碼表中特定字符的顯示外觀,編排其組合次序,形成描繪人物表情動(dòng)作的圖案。在社交媒體中,有越來越多的人頻繁使用顏文字來表達(dá)和抒發(fā)豐富的內(nèi)心情感,它豐富了網(wǎng)絡(luò)交流的想象空間,深受年輕用戶的喜愛,目前已發(fā)展成為影響世界的網(wǎng)絡(luò)文化符號(hào)。顏文字的使用會(huì)帶來語義和語境情感上的變化,因此傳統(tǒng)的單純基于文本的情感分析已經(jīng)無法滿足需要,需要結(jié)合顏文字為用戶情感決策提供更多、更準(zhǔn)確的信息,進(jìn)而提高決策的準(zhǔn)確率。
申請(qǐng)?zhí)枮?01910976409.X的發(fā)明專利申請(qǐng)公開了一種基于模型融合的多類別情感分類方法,首先利用Bert模型在數(shù)據(jù)預(yù)處理方面的突破性進(jìn)展對(duì)訓(xùn)練文本集進(jìn)行預(yù)處理,與類別標(biāo)簽數(shù)據(jù)結(jié)合,獲取文本的特征向量,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的訓(xùn)練集合,再轉(zhuǎn)化為Liblinear模型的標(biāo)準(zhǔn)輸入數(shù)據(jù),進(jìn)行分類模型的構(gòu)建。該方法的缺點(diǎn)是需要較大的數(shù)據(jù)集用于調(diào)整和預(yù)訓(xùn)練,沒有考慮文本中顏文字的影響,且在捕捉句子順序信息方面的能力較差,無法獲取更加復(fù)雜的語義特征。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京聯(lián)合大學(xué),未經(jīng)北京聯(lián)合大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110412378.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





