[發(fā)明專(zhuān)利]一種中文微博的情感傾向分析方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310072472.3 | 申請(qǐng)日: | 2013-03-07 |
| 公開(kāi)(公告)號(hào): | CN103150367A | 公開(kāi)(公告)日: | 2013-06-12 |
| 發(fā)明(設(shè)計(jì))人: | 劉紅玉;劉丹;高云棋;郭成林;彭春林 | 申請(qǐng)(專(zhuān)利權(quán))人: | 寧波成電泰克電子信息技術(shù)發(fā)展有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 成都宏順專(zhuān)利代理事務(wù)所(普通合伙) 51227 | 代理人: | 周永宏 |
| 地址: | 315040 浙江省寧*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文 情感 傾向 分析 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域,具體涉及一種針對(duì)中文微博的情感傾向分析方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展和Web2.0的興起,人們?cè)絹?lái)越習(xí)慣于在網(wǎng)絡(luò)上表達(dá)自己的觀點(diǎn)。網(wǎng)民針對(duì)某些熱點(diǎn)事件的看法,對(duì)于政府了解當(dāng)前的輿情信息、判斷當(dāng)前的輿論形勢(shì)及決策是非常有價(jià)值的。而針對(duì)商品、商家的評(píng)論,則對(duì)商家調(diào)整市場(chǎng)策略和買(mǎi)家選擇商品都有一定的幫助。現(xiàn)在網(wǎng)絡(luò)上存在海量的帶有情感傾向性的文本,依靠人工去判斷這些文本的情感傾向是不可能完成的任務(wù),文本情感分析就是針對(duì)這個(gè)領(lǐng)域提出的一個(gè)新興的研究方向,它利用計(jì)算機(jī)來(lái)自動(dòng)地對(duì)文本的情感傾向性進(jìn)行分析。
微博是一種通過(guò)關(guān)注機(jī)制分享簡(jiǎn)短實(shí)時(shí)信息的廣播式的社交網(wǎng)絡(luò)平臺(tái)。用戶(hù)開(kāi)通微博服務(wù)后,可以發(fā)表、轉(zhuǎn)發(fā)及評(píng)論消息,來(lái)標(biāo)記生活、分享新鮮事、表達(dá)觀點(diǎn)等。微博一問(wèn)世就憑借其開(kāi)放性、平等性、易用性迅速吸引了大眾的目光。以新浪微博為例,截止2011年底,新浪微博的注冊(cè)用戶(hù)已達(dá)3億,日活躍用戶(hù)超過(guò)3000萬(wàn),日均發(fā)表微博數(shù)量將近1億條。微博文本的數(shù)量大,更新快,其中很多表達(dá)了用戶(hù)對(duì)某些事件的觀點(diǎn)和態(tài)度,研究微博文本的情感傾向性具有重要的現(xiàn)實(shí)意義。
中文微博與傳統(tǒng)的中文文本相比具有明顯的差異性,微博是口語(yǔ)化、不規(guī)則的文本,內(nèi)容較短,用詞比較隨意,微博之間具有鏈接關(guān)系;而與英文微博相比,中文微博最長(zhǎng)允許140個(gè)中文字符,比英文微博的140個(gè)英文字符(大概20-30個(gè)單詞)具有更豐富的內(nèi)容。因此針對(duì)傳統(tǒng)中文文本和英文微博的情感分析研究成果并不完全適用于中文微博文本。
發(fā)明內(nèi)容
本發(fā)明目的在于解決現(xiàn)有技術(shù)存在的上述問(wèn)題,提出了一種中文微博的情感傾向分析方法。
本發(fā)明的技術(shù)的方案為:一種中文微博的情感傾向分析方法,具體包括如下步驟:
S1.對(duì)微博文本進(jìn)行分類(lèi),根據(jù)文本的構(gòu)成特征將微博文本分為原創(chuàng)類(lèi)文本和轉(zhuǎn)發(fā)或評(píng)論類(lèi)文本;
S2.根據(jù)微博文本的類(lèi)型,對(duì)微博文本進(jìn)行情感傾向分析。
進(jìn)一步的,對(duì)原創(chuàng)類(lèi)文本進(jìn)行情感傾向分析的具體過(guò)程如下:
步驟10,對(duì)微博文本進(jìn)行預(yù)處理,即提取文本中的下述字段,包括:微博中使用的表情、作者、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、包含的外部鏈接、標(biāo)簽、文本中是否其他用戶(hù)、作者是否加V;
步驟11,對(duì)預(yù)處理后的微博文本進(jìn)行分析,依據(jù)預(yù)先定義的情感詞典,根據(jù)是否包含情感詞、情感表情、外部鏈接來(lái)判斷文本的主客觀傾向;
步驟12,如果步驟11中判斷的微博文本為客觀文本,則將微博文本的情感傾向記為中性;否則,按下述過(guò)程判斷微博文本的正負(fù)向:
步驟121,將微博文本分句,將句子中的用戶(hù)、標(biāo)簽去掉,然后使用分詞工具將句子分詞并標(biāo)注詞性;
步驟122,根據(jù)預(yù)定義的情感詞典,情感組合短語(yǔ)、否定詞典、轉(zhuǎn)折詞典、句中包含的情感表情、表示感情的標(biāo)點(diǎn)符號(hào),來(lái)計(jì)算每句的情感傾向,然后綜合計(jì)算整個(gè)微博文本的情感傾向以及置信度;
步驟123,選取情感詞、表情、否定詞、轉(zhuǎn)折詞,使用分類(lèi)器來(lái)分析情感傾向;
步驟124,依據(jù)步驟122及123的結(jié)果,綜合評(píng)定微博文本的情感傾向。
進(jìn)一步的,對(duì)轉(zhuǎn)發(fā)或評(píng)論類(lèi)文本進(jìn)行情感傾向分析的具體過(guò)程如下:
步驟20,查找到轉(zhuǎn)發(fā)或評(píng)論類(lèi)文本對(duì)應(yīng)的原創(chuàng)類(lèi)文本;
步驟21,判斷原創(chuàng)類(lèi)文本的情感傾向;
步驟22,如果轉(zhuǎn)發(fā)或評(píng)論類(lèi)文本的字?jǐn)?shù)不大于預(yù)先設(shè)定的閾值,則轉(zhuǎn)向步驟23;否則,計(jì)算該轉(zhuǎn)發(fā)或評(píng)論類(lèi)文本的情感傾向;
步驟23,根據(jù)情感詞典和情感表情的數(shù)量來(lái)分析情感傾向,如果計(jì)算出的情感傾向?yàn)橹行裕瑒t認(rèn)為該文本的情感傾向與該文本對(duì)應(yīng)的原創(chuàng)類(lèi)文本的情感傾向相同,否則計(jì)算出的情感傾向即為該文本的情感傾向。
本發(fā)明的有益效果:本發(fā)明的情感分析方法通過(guò)根據(jù)文本的構(gòu)成特征將微博文本分為原創(chuàng)類(lèi)文本和轉(zhuǎn)發(fā)或評(píng)論類(lèi)文本然后分別進(jìn)行分析,在對(duì)網(wǎng)絡(luò)上隨機(jī)抓取的1000條微博文本進(jìn)行測(cè)試,得到的分析準(zhǔn)確率為81%,與現(xiàn)有文獻(xiàn)相比,準(zhǔn)確率有所提高;且方法過(guò)程比較簡(jiǎn)明,實(shí)施起來(lái)比較簡(jiǎn)單,成本低廉,具有很強(qiáng)的實(shí)用價(jià)值。
附圖說(shuō)明
圖1是本發(fā)明的中文微博文本情感分析方法的流程示意圖。
圖2是實(shí)施例中的原創(chuàng)類(lèi)文本的情感分析的流程示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于寧波成電泰克電子信息技術(shù)發(fā)展有限公司,未經(jīng)寧波成電泰克電子信息技術(shù)發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310072472.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種針對(duì)短文本的傾向性分析的系統(tǒng)與方法
- 一種用于確定駕駛員起動(dòng)傾向的系統(tǒng)和方法
- 用于控制車(chē)輛的行駛模式的裝置和方法
- 一種數(shù)據(jù)處理方法和裝置
- 一種基于意群劃分的文本處理技術(shù)方法和系統(tǒng)
- 信息推薦方法、情感傾向確定方法及裝置和電子設(shè)備
- 一種文本信息標(biāo)注的方法以及相關(guān)裝置
- 一種視頻推薦方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 成衣定制方案推薦方法及裝置
- 對(duì)話(huà)文本的行為傾向識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





