[發(fā)明專利]藏文短文本情感分析方法及裝置有效
| 申請?zhí)枺?/td> | 201710631444.9 | 申請日: | 2017-07-28 |
| 公開(公告)號: | CN107402917B | 公開(公告)日: | 2021-02-12 |
| 發(fā)明(設(shè)計)人: | 閆曉東 | 申請(專利權(quán))人: | 中央民族大學(xué) |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/40;G06K9/62 |
| 代理公司: | 北京久誠知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11542 | 代理人: | 翟姝紅;翟麗紅 |
| 地址: | 100081 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 藏文 文本 情感 分析 方法 裝置 | ||
本發(fā)明提供了一種藏文短文本情感分析方法及裝置,屬于大數(shù)據(jù)處理領(lǐng)域,本發(fā)明提供的方法包括:設(shè)置提取情感特征的多種特征類型;獲取藏文短文本,根據(jù)預(yù)設(shè)多種特征類型從藏文短文本中自動選擇藏文情感特征;利用信息增益法對該藏文短文本提取藏文情感特征;將自動選擇的藏文情感特征及利用信息增益法提取的藏文情感特征進(jìn)行融合處理,得到最終藏文情感特征。所述裝置包括存儲模塊、自動匹配模塊、特征提取模塊和特征融合模塊。本發(fā)明通過融合自動選擇情感特征及利用算法抽取情感特征的方法,實現(xiàn)兩種方式優(yōu)勢互補(bǔ)效果,從而提高藏文文本情感分析的正確率。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種藏文短文本情感分析方法及設(shè)備。
背景技術(shù)
文本情感分析(Text Sentiment Analysis),亦可稱作意見挖掘(OpinionMining),是對帶有情感色彩的主觀文本進(jìn)行分析、處理、歸納和推理的過程。這些年來,情感分析成為自然語言處理領(lǐng)域中的非常重要、熱門的研究課題之一,同時它在數(shù)據(jù)挖掘、Web挖掘和文本挖掘領(lǐng)域也備受關(guān)注
目前文本情感分析成為自然語言處理領(lǐng)域中非常重要、熱門的研究課題之一,同時它在數(shù)據(jù)挖掘、Web挖掘和文本挖掘領(lǐng)域備受關(guān)注,中、英文文本情感分類方面的研究相對成熟,而對于起步較晚的藏文信息,目前成熟的中英文情感分類方法無法直接應(yīng)用在藏語中。
目前對于中英文的文本情感分析方法大致有兩類:第一類是基于情感詞典和多種特征類型的方法,通過抽取句子中出現(xiàn)的情感詞、否定詞、轉(zhuǎn)折詞等的極性、位置及個數(shù)等信息,依據(jù)特定語言的語法特征制定對應(yīng)的情感計算多種特征類型對整個句子進(jìn)行情感值得打分。如通過WordNet計算單個詞的情感值,然后對待分析句子中所有帶情感極性的詞語進(jìn)行簡單的線性加權(quán)計算,最終得到該句子的情感打分,從而實現(xiàn)對句子情感的褒貶分類。第二類基于統(tǒng)計機(jī)器學(xué)習(xí)的方法,將句子情感傾向判斷當(dāng)作一個分類問題來處理,通過對文本的情感特征的抽取,完成文本的情感分類。如基于半監(jiān)督的最大熵-樸素貝葉斯情感分類方法,跟基于監(jiān)督的方法不同的是該方法只需要少量的標(biāo)記語料和一些未標(biāo)記的語料。
上述第一類方法依賴情感詞典的規(guī)模和質(zhì)量,且由于多種特征類型之間容易出現(xiàn)沖突,判別準(zhǔn)確率不高;第二類方法能夠適應(yīng)大量、情況復(fù)雜的語料分析環(huán)境,但無法直接應(yīng)用在藏文短文本情感分析中。
現(xiàn)有技術(shù)中對于藏文短文本情感分析的方法較少,有一種基于語義空間的藏文微博情感分析方法,其通過使用句法樹生成句法結(jié)構(gòu)并結(jié)合語義特征向量構(gòu)建特征空間,運用K-means方法確定文本的情感傾向性,該方案通過構(gòu)建情感傾向性特征的方式進(jìn)行分析,分析的準(zhǔn)確性較差。
發(fā)明內(nèi)容
本發(fā)明實施例提出了一種藏文短文本情感分析方法及設(shè)備,提出利用多種特征類型自動選擇情感特征及利用算法抽取情感特征相融合的方式,提高了藏文文本情感分析的正確率。
第一方面,本發(fā)明實施例提供了一種藏文短文本情感分析方法,所述方法包括:
預(yù)設(shè)情感特征的特征類型表,所述特征類型表中包括多種特征類型與藏文情感特征的對應(yīng)關(guān)系;
獲取藏文短文本,根據(jù)所述特征類型表從所述藏文短文本中自動選擇藏文情感特征得到第一藏文情感特征集集;
利用信息增益法提取所述藏文短文本中的藏文情感特征得到第二藏文情感特征集;
將所述第一藏文情感特征集集和所述第二藏文情感特征集進(jìn)行融合處理,得到最終藏文情感特征。
第二方面,本發(fā)明實施例提供了一種藏文短文本情感分析裝置,所述裝置包括:
存儲模塊,用于設(shè)置提取情感特征的特征類型表,并存儲所述特征類型表,所述特征類型表中包括多種特征類型與藏文情感特征的對應(yīng)關(guān)系;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中央民族大學(xué),未經(jīng)中央民族大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710631444.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





