[發(fā)明專利]一種應(yīng)用于評(píng)論語料的情感信息壓縮方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201410494394.0 | 申請(qǐng)日: | 2014-09-24 |
| 公開(公告)號(hào): | CN104199980A | 公開(公告)日: | 2014-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 李壽山;高偉;周國棟;王紅玲 | 申請(qǐng)(專利權(quán))人: | 蘇州大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 常亮 |
| 地址: | 215137 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 應(yīng)用于 評(píng)論 語料 情感 信息 壓縮 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域及模式識(shí)別領(lǐng)域,具體涉及一種應(yīng)用于評(píng)論語料的情感信息壓縮方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人們?cè)絹碓搅?xí)慣于在網(wǎng)絡(luò)上表達(dá)自己的觀點(diǎn),從而使網(wǎng)絡(luò)上涌現(xiàn)出大量帶情感的文本。這些傾向性文本往往以商品評(píng)論、論壇評(píng)論和博客的形式存在。這些文本往往是關(guān)鍵文本,或者是用戶感興趣的文本。如何從海量文本中提取這一類文本,并對(duì)其進(jìn)行情感傾向性的分析,具有很強(qiáng)的應(yīng)用價(jià)值。例如:用戶可以根據(jù)商品的評(píng)論了解商品的信息,選擇合適的品牌;商家根據(jù)用戶的評(píng)論改進(jìn)商品的品質(zhì),爭(zhēng)取更大的市場(chǎng);追蹤社會(huì)輿論趨勢(shì),發(fā)現(xiàn)社會(huì)熱點(diǎn)問題等。情感分析就是針對(duì)這些應(yīng)用問題提出的一個(gè)新興研究課題。
所謂文本傾向性分析,就是對(duì)說話人的態(tài)度(或稱觀點(diǎn)、情感)進(jìn)行分析,也就是對(duì)文本中的主觀性信息進(jìn)行分析。情感分類(Sentiment?Classification)是情感分析中的一個(gè)基本任務(wù)。該任務(wù)旨在將文本按照情感傾向進(jìn)行褒貶分類。與傳統(tǒng)基于主題的文本分類相比,情感分類被認(rèn)為更具有挑戰(zhàn)性。該任務(wù)具體是指將文本分為正面文本或者負(fù)面文本的任務(wù)。例如:“我很喜歡這部電影”,通過情感分類,這句話將被分為正面文本;而“這個(gè)電影很差勁”,被分類為負(fù)面文本。
目前,主流的情感分類方法大致可以分為兩種。
第一種分類方法是基于情感詞表的非監(jiān)督學(xué)習(xí)方法,這種方法主要是基于詞計(jì)數(shù)的方法。利用情感詞表去統(tǒng)計(jì)樣本中正面情感詞和負(fù)面情感詞的數(shù)目,如果正面詞的數(shù)目多于負(fù)面詞的數(shù)目,則判斷樣本為正面樣本,否則為負(fù)面樣本。該方法的實(shí)現(xiàn)非常簡(jiǎn)單,執(zhí)行效率高,適合任何領(lǐng)域,但是分類效果與實(shí)際需求仍存在較大差距。
第二種是基于機(jī)器學(xué)習(xí)的監(jiān)督分類方法,該方法分為兩個(gè)過程:訓(xùn)練過程和分類過程。其中,在訓(xùn)練過程中,需要人工標(biāo)注一定規(guī)模的正負(fù)樣本。這種方法的分類準(zhǔn)確率比較高,但是隨著訓(xùn)練樣本數(shù)目的增加,特征數(shù)目也隨之大幅度地提高,分類過程中需要占用大量的內(nèi)存空間,對(duì)于移動(dòng)終端設(shè)備往往受到內(nèi)存容量的限制,很難進(jìn)行文本分類的任務(wù)。
另外,對(duì)于一些特殊的任務(wù),如不平衡情感分類任務(wù),其中某一類別的樣本數(shù)目遠(yuǎn)遠(yuǎn)多于另一類別的樣本數(shù)目,樣本數(shù)目的不平衡往往導(dǎo)致很差的分類效果。
鑒于上述原因,本發(fā)明提供一種應(yīng)用于評(píng)論語料的情感信息壓縮方法及系統(tǒng),對(duì)評(píng)論語料進(jìn)行壓縮,使之最大程度上保留情感分類信息,從而能夠適應(yīng)于移動(dòng)設(shè)備上的情感分類任務(wù),以及為某些特殊的任務(wù)(如不平衡情感分類任務(wù))提供服務(wù),以實(shí)現(xiàn)對(duì)多類別的語料進(jìn)行壓縮。
發(fā)明內(nèi)容
為了更好地理解本發(fā)明,首先將本發(fā)明涉及的常用的術(shù)語與標(biāo)記介紹如下。
機(jī)器學(xué)習(xí)分類方法(Classification?Methods?Based?on?Machine?Learning):用于構(gòu)建分類器的統(tǒng)計(jì)學(xué)習(xí)方法,輸入是表示樣本的向量,輸出是樣本的類別標(biāo)簽。常見的機(jī)器學(xué)習(xí)分類方法有樸素貝葉斯、最大熵、支持向量機(jī)等。評(píng)論語料:對(duì)產(chǎn)品進(jìn)行評(píng)論的文本。情感分類:通過分析文本的主觀性信息,將文本分為褒義文本或者貶義文本的任務(wù)。
本發(fā)明提供一種應(yīng)用于評(píng)論語料的情感信息壓縮方法,包括以下步驟。
S1、將待用數(shù)據(jù)分為K份,并取其中1份作為測(cè)試樣本,其余K-1份作為訓(xùn)練樣本。
S2、使用機(jī)器學(xué)習(xí)方法訓(xùn)練分類器對(duì)所述測(cè)試樣本進(jìn)行分類,并將分類結(jié)果的最大后驗(yàn)概率作為每個(gè)樣本的情感代表性分?jǐn)?shù)。
S3、將所有樣本根據(jù)情感代表性分值從大到小排序,并根據(jù)壓縮規(guī)模N,抽取排在前面的N個(gè)樣本作為壓縮樣本集。
優(yōu)選的,在步驟S1中,對(duì)所述待用數(shù)據(jù)采用順序切分或者隨機(jī)抽取的方式,組成K份均等的樣本集。
優(yōu)選的,在步驟S1中,每次從K份中取其中1份作為測(cè)試樣本,剩下的K-1份作為訓(xùn)練樣本,共循環(huán)迭代K次。
優(yōu)選的,在步驟S2中,使用的機(jī)器學(xué)習(xí)方法為最大熵的機(jī)器學(xué)習(xí)方法。
優(yōu)選的,在步驟S2中,所述后驗(yàn)概率是使用機(jī)器學(xué)習(xí)方法訓(xùn)練的分類器對(duì)樣本進(jìn)行分類時(shí)獲得的。
優(yōu)選的,在步驟S2中,使用機(jī)器學(xué)習(xí)的分類方法在訓(xùn)練樣本上進(jìn)行訓(xùn)練,并對(duì)測(cè)試樣本進(jìn)行分類,得到其屬于每個(gè)類別的后驗(yàn)概率。
優(yōu)選的,在步驟S3中,所述排在前面的N個(gè)樣本作為壓縮樣本集,并作為最終的壓縮結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué);,未經(jīng)蘇州大學(xué);許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410494394.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 全球評(píng)論板系統(tǒng)及其實(shí)現(xiàn)方法
- 一種評(píng)論推薦方法和系統(tǒng)
- 評(píng)論內(nèi)容的提供方法、裝置和終端設(shè)備
- 評(píng)論信息確定方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于人工智能構(gòu)建評(píng)論圖譜的方法和裝置
- 一種電子商務(wù)產(chǎn)品評(píng)論質(zhì)量鑒別系統(tǒng)
- 音頻文件的評(píng)論方法及裝置
- 評(píng)論的展示方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 在線評(píng)論篩選裝置
- 用于生成評(píng)論的方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種語料提取器及提取語料的方法
- 軍事信息語料庫構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語料生成方法、語料生成裝置、和存儲(chǔ)介質(zhì)
- 短語語料獲取方法及短語語料獲取裝置
- 一種語料分類方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備





