[發(fā)明專利]一種基于細(xì)粒度標(biāo)注數(shù)據(jù)的情感判別方法有效
| 申請?zhí)枺?/td> | 201910809268.2 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN111046171B | 公開(公告)日: | 2022-08-16 |
| 發(fā)明(設(shè)計(jì))人: | 高正杰;馮翱;宋馨宇 | 申請(專利權(quán))人: | 成都信息工程大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 成都智涌知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 51313 | 代理人: | 周正輝 |
| 地址: | 610200 四川省成都*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 細(xì)粒度 標(biāo)注 數(shù)據(jù) 情感 判別 方法 | ||
本發(fā)明涉及一種基于細(xì)粒度標(biāo)注數(shù)據(jù)的情感判別方法,方法包括:采集財(cái)經(jīng)新聞數(shù)據(jù),將新聞數(shù)據(jù)劃分為標(biāo)注樣例集和未標(biāo)注樣例集,通過標(biāo)注樣例集和未標(biāo)注樣例集對第一分類器和第二分類器進(jìn)行訓(xùn)練,使第一分類器能夠篩選出文章中的關(guān)鍵句,第二分類器判別文章的情感傾向,分別得到第一分類器的模型參數(shù)和第二分類器的模型參數(shù),將分類結(jié)果中置信度高的數(shù)據(jù)加入到標(biāo)注樣例集中,并利用主動學(xué)習(xí)理論,從未標(biāo)注樣例集中選出最值得標(biāo)注的數(shù)據(jù)C發(fā)給人工進(jìn)行標(biāo)注,以此循環(huán)訓(xùn)練情感判別模型,直到達(dá)到分類精度,訓(xùn)練結(jié)束,得到判別模型。
技術(shù)領(lǐng)域
本發(fā)明涉及文本處理領(lǐng)域,尤其涉及一種基于細(xì)粒度標(biāo)注數(shù)據(jù)的情感判別方法。
背景技術(shù)
在當(dāng)前信息過載的時代,新聞生成的速度遠(yuǎn)超個人能夠處理的速度,為保證用戶對有效信息的獲取,對原始新聞進(jìn)行適當(dāng)?shù)奶卣魈崛『瓦^濾已成為比較普遍且必需的做法。在對財(cái)經(jīng)新聞用數(shù)學(xué)模型進(jìn)行量化處理的時候,新聞的情感傾向(正面/負(fù)面/中性)是其中非常重要的屬性之一。
對于新聞文本的情感分類有三種思路:基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
基于情感詞典的方法主要是通過構(gòu)建情感詞典以及一系列的規(guī)則來判斷文本的情感極性;從語言學(xué)角度出發(fā),依靠一些已有的情感詞典或領(lǐng)域詞典以及一系列的規(guī)則構(gòu)建情感分類器。但是對于大量不含明顯情感詞的新聞,不能進(jìn)行正確的情感和重要性判別,且詞典的維護(hù)需要耗費(fèi)大量的人力物力。以財(cái)經(jīng)新聞領(lǐng)域的財(cái)務(wù)報表類新聞為例,新聞中通常只出現(xiàn)若干數(shù)字,以及“相比去年上升”、“同比減少”等等字樣,即使由人工加以判別,也只能根據(jù)該領(lǐng)域規(guī)則確定其情感傾向和重要性,不能簡單地提取關(guān)鍵詞特征加以判別。
基于機(jī)器學(xué)習(xí)的方法是通過從文本中篩選出一組具有統(tǒng)計(jì)意義的特征,然后利用機(jī)器學(xué)習(xí)的方法構(gòu)建分類模型,常見的分類模型有樸素貝葉斯、最大熵和支持向量機(jī)等;本技術(shù)方案需要由領(lǐng)域?qū)<覐奈谋局泻Y選出一組具有統(tǒng)計(jì)意義的特征,然后使用機(jī)器學(xué)習(xí)算法構(gòu)建分類器判斷文本的情感極性。對于不同的數(shù)據(jù)集,在處理時需要專家選取不同的特征,投入的成本較大,且模型泛化能力差。
由人工基于預(yù)先設(shè)定的規(guī)則,對于部分新聞數(shù)據(jù)進(jìn)行篇章級的人工標(biāo)注,然后使用標(biāo)注數(shù)據(jù)訓(xùn)練分類器。無論是傳統(tǒng)的機(jī)器學(xué)習(xí)方法還是現(xiàn)在的深度學(xué)習(xí)方法在足夠數(shù)量的情況下都可以學(xué)習(xí)到很好的特征,取得比較高的準(zhǔn)確率。但是現(xiàn)有的方法在實(shí)際過程中都忽略了一個問題,即財(cái)經(jīng)新聞中只有極少數(shù)句子對于情感分類是有效的,大多數(shù)句子均為無用信息或噪聲信息。在保留大量無用信息和噪聲的情況下,要想取得較高的分類準(zhǔn)確率,就無疑使標(biāo)注工作量顯著增加。
如何有效提高財(cái)經(jīng)新聞文本情感分類的準(zhǔn)確率,以及如何減少人工標(biāo)注的工作量,則成為了現(xiàn)目前亟待解決的問題。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)之不足,一種基于細(xì)粒度標(biāo)注數(shù)據(jù)的情感判別方法,所述方法包括:
步驟1:采集財(cái)經(jīng)領(lǐng)域新聞數(shù)據(jù),所述財(cái)經(jīng)領(lǐng)域新聞數(shù)據(jù)包括不同種類的財(cái)經(jīng)新聞和不同類型的內(nèi)容;
步驟2:將采集到的新聞數(shù)據(jù)P分為兩部分,包括標(biāo)注樣例集P1和無標(biāo)注樣例集P2,P表示為:
P=P1∪P2
步驟3:由標(biāo)注人員按照預(yù)先制定好的標(biāo)注規(guī)則,對所述標(biāo)注樣例集P1中的句子標(biāo)注出情感關(guān)鍵句和非情感關(guān)鍵句,以及對應(yīng)的文章情感標(biāo)簽T,所述情感關(guān)鍵句和非情感關(guān)鍵句分別構(gòu)成情感關(guān)鍵句集S和非情感關(guān)鍵句集NS,所述標(biāo)注樣例集P1為訓(xùn)練第一分類器和第二分類器的訓(xùn)練集;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都信息工程大學(xué),未經(jīng)成都信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910809268.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種管理和傳送細(xì)粒度業(yè)務(wù)的方法
- 基于CPU硬件性能監(jiān)控計(jì)數(shù)器的CPI精確測量方法
- 一種基于改進(jìn)YOLOv3的細(xì)粒度圖像分類方法
- 細(xì)粒度對象流量分析方法和裝置
- 一種基于點(diǎn)云數(shù)據(jù)建模的方法、裝置和電子設(shè)備
- 細(xì)粒度圖像分類方法、系統(tǒng)、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 基于圖像卷積特征的復(fù)雜背景下害蟲細(xì)粒度圖像識別方法
- 一種細(xì)粒度分類模型的優(yōu)化方法、系統(tǒng)及相關(guān)裝置
- 一種結(jié)合注意力混合裁剪的細(xì)粒度圖像識別方法
- 基于分級式結(jié)構(gòu)的細(xì)粒度視頻動作識別方法
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺的方法、裝置、電子設(shè)備和存儲介質(zhì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





