[發(fā)明專利]一種細(xì)粒度情感分析方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110945239.6 | 申請(qǐng)日: | 2021-08-17 |
| 公開(公告)號(hào): | CN113688634B | 公開(公告)日: | 2022-02-11 |
| 發(fā)明(設(shè)計(jì))人: | 閆琰;周法國(guó);張瀟;李旭峰;葛逸凡;李嘉裕 | 申請(qǐng)(專利權(quán))人: | 中國(guó)礦業(yè)大學(xué)(北京) |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F40/211;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京金智普華知識(shí)產(chǎn)權(quán)代理有限公司 11401 | 代理人: | 巴曉艷 |
| 地址: | 100083 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 細(xì)粒度 情感 分析 方法 | ||
本發(fā)明涉及一種細(xì)粒度情感分析方法,涉及自然語(yǔ)言處理領(lǐng)域。該方法包括以下步驟:為數(shù)據(jù)集中每條樣本生成序列標(biāo)簽和位置嵌入向量、添加“start”和“end”標(biāo)志以標(biāo)識(shí)樣本的首尾、添加標(biāo)簽“pad”以補(bǔ)齊樣本長(zhǎng)度,之后將樣本通過(guò)詞典轉(zhuǎn)化為整數(shù)編碼序列,輸入bert模型生成樣本的嵌入向量;搭建實(shí)體數(shù)量預(yù)測(cè)模型、實(shí)體起始位置標(biāo)注模型和實(shí)體長(zhǎng)度預(yù)測(cè)模型,并將樣本分別輸入三個(gè)模型進(jìn)行訓(xùn)練,完成評(píng)價(jià)對(duì)象提取(OTE);搭建情感預(yù)測(cè)模型,并將樣本輸入該模型進(jìn)行訓(xùn)練,完成情感極性分析(OSC);順次連接以上訓(xùn)練完畢的四個(gè)模型,輸入待預(yù)測(cè)樣本,抽取評(píng)價(jià)對(duì)象并分析評(píng)價(jià)對(duì)象的情感極性。本發(fā)明可用于抽取評(píng)論文本中的評(píng)價(jià)對(duì)象及對(duì)其進(jìn)行情感分析。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,具體涉及一種細(xì)粒度情感分析方法,用于抽取評(píng)論文本中的評(píng)價(jià)對(duì)象并判斷其情感極性的方法。
背景技術(shù)
細(xì)粒度情感分析,是目前自然語(yǔ)言處理領(lǐng)域中最熱門的一項(xiàng)語(yǔ)義分析任務(wù),其目的在于抽取非結(jié)構(gòu)化的評(píng)論文本中的評(píng)價(jià)對(duì)象(關(guān)鍵詞),并根據(jù)上下文得到其對(duì)應(yīng)情感極性。細(xì)粒度情感分析任務(wù)的提出是因?yàn)檫^(guò)去粗粒度情感分析任務(wù)無(wú)法滿足當(dāng)下人們的需求。粗粒度情感分析任務(wù)的對(duì)象是一個(gè)文檔(句子),它只能得到文檔(句子)整體的情感極性傾向。但是現(xiàn)實(shí)世界中的事物都是多方面的,一個(gè)評(píng)論文本往往會(huì)對(duì)同一個(gè)事物的不同方面做出評(píng)價(jià)。如“這家餐廳食物很好吃,但是服務(wù)態(tài)度很差,交通也不方便。”這句評(píng)論涉及了三個(gè)評(píng)價(jià)對(duì)象且評(píng)價(jià)的極性也不同。粗粒度情感分析來(lái)分析該評(píng)論文本的時(shí)候就無(wú)法做出多方面、客觀的評(píng)價(jià),相比之下,細(xì)粒度情感分析則可以識(shí)別出“食物、”“服務(wù)態(tài)度”“交通”三個(gè)評(píng)價(jià)對(duì)象及對(duì)應(yīng)情感極性。細(xì)粒度情感分析可以提取出更具體、更多元、更客觀的信息,這一點(diǎn)具有十分廣闊的應(yīng)用前景和潛在價(jià)值。對(duì)于用戶而言,用戶可以更方便的了解自己想了解的部分,用更少的精力更高效地完成自己對(duì)商品的篩選;對(duì)于商家而言,商家可以迅速察覺(jué)自己商品不受歡迎的具體原因或是用戶最喜愛(ài)的方面,這些信息有助于商家調(diào)整自己的銷售策略和進(jìn)行產(chǎn)品優(yōu)化,創(chuàng)造更高的收益。
細(xì)粒度情感分析任務(wù)的主流方法是將任務(wù)拆解為評(píng)價(jià)對(duì)象抽取和情感極性分析兩個(gè)子任務(wù)。評(píng)價(jià)對(duì)象抽取任務(wù)的常見(jiàn)解決方法是將抽取任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù)。如Wang等人【Recursive Neural Conditional Random Fields for Aspect-basedSentiment Analysis】就利用深度學(xué)習(xí)的特征提取能力,采取循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeural Network)與條件隨機(jī)場(chǎng)(CRF)相結(jié)合的方式抽取評(píng)論文本中的評(píng)價(jià)對(duì)象和評(píng)價(jià)詞。Yan等人【Graph Convolutional Networks for Target-oriented Opinion WordsExtraction with Adversarial Training】也使用了深度學(xué)習(xí)的方法,他們使用圖卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取深層特征,同時(shí)用對(duì)抗訓(xùn)練的方法提升模型的魯棒性,并取得了不錯(cuò)的效果。但是上述兩個(gè)模型仍然存在缺陷,Wang采用的循環(huán)神經(jīng)網(wǎng)絡(luò)提取特征的能力較弱,比如會(huì)遺忘距離過(guò)遠(yuǎn)的信息,而且其使用word2vec的詞向量表達(dá)方式效果也不如現(xiàn)在流行的bert方法;Yan使用自定的output層為序列標(biāo)注問(wèn)題添加約束,從數(shù)學(xué)角度來(lái)講效果不如條件隨機(jī)場(chǎng)。對(duì)于情感極性分析任務(wù)而言,其核心問(wèn)題在于如何使模型識(shí)別上下文和評(píng)價(jià)對(duì)象的關(guān)系。Ma【Interactive Attention Networks for Aspect-Level SentimentClassification】提出了IAN(Interactive Attention Networks)用于分別提取上下文和評(píng)價(jià)對(duì)象的隱藏態(tài),并將該隱藏態(tài)分別添加到對(duì)方的序列上,再利用注意力機(jī)制分別提取上下文和評(píng)價(jià)對(duì)象的最終表示,用它來(lái)做最后的極性分類。Ma在論文中展現(xiàn)了注意力層的權(quán)重,說(shuō)明了注意力機(jī)制在該任務(wù)中的可行性。
發(fā)明內(nèi)容
鑒于上文所描述的問(wèn)題,本發(fā)明提出了一種新方法用來(lái)解決評(píng)價(jià)對(duì)象抽取任務(wù)和評(píng)價(jià)對(duì)象情感極性分析任務(wù),并將兩者連接起來(lái)完成細(xì)粒度情感分析總?cè)蝿?wù)。
根據(jù)本發(fā)明的第一方面,提供一種用于細(xì)粒度情感分析的方法,其特征在于,所述方法包括以下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)礦業(yè)大學(xué)(北京),未經(jīng)中國(guó)礦業(yè)大學(xué)(北京)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110945239.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種管理和傳送細(xì)粒度業(yè)務(wù)的方法
- 基于CPU硬件性能監(jiān)控計(jì)數(shù)器的CPI精確測(cè)量方法
- 一種基于改進(jìn)YOLOv3的細(xì)粒度圖像分類方法
- 細(xì)粒度對(duì)象流量分析方法和裝置
- 一種基于點(diǎn)云數(shù)據(jù)建模的方法、裝置和電子設(shè)備
- 細(xì)粒度圖像分類方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于圖像卷積特征的復(fù)雜背景下害蟲細(xì)粒度圖像識(shí)別方法
- 一種細(xì)粒度分類模型的優(yōu)化方法、系統(tǒng)及相關(guān)裝置
- 一種結(jié)合注意力混合裁剪的細(xì)粒度圖像識(shí)別方法
- 基于分級(jí)式結(jié)構(gòu)的細(xì)粒度視頻動(dòng)作識(shí)別方法
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





