[發明專利]一種提高情感傾向占比低文本預斷準確率的方法有效
| 申請號: | 201811335523.6 | 申請日: | 2018-11-10 |
| 公開(公告)號: | CN109492226B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 劉洋;陳福 | 申請(專利權)人: | 上海五節數據科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/30;G06F18/214 |
| 代理公司: | 上海牧信專利代理事務所(普通合伙) 31416 | 代理人: | 盛際豐 |
| 地址: | 201100 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提高 情感 傾向 文本 預斷 準確率 方法 | ||
本發明公開了一種提高情感傾向占比低文本預斷準確率的方法,1)設計一個召回率都差不多的情感模型;假設一個方案對正、中、負情感傾向樣本預判的準確度都達到60%以上,方滿足用戶對情感預判大概率正確的要求,基于上述正、中、負樣本的占比,來看看沒有引入本方案后面的設計發明時,所要求情感模型對各情感傾向樣本召回率;本發明提供的一種提高情感傾向占比低文本預斷準確率的方法,快速適應實際環境中正、中、負各類情感樣本占比失衡的情形;使得訓練模型不用特別追求正、中、負三類文本都有較高的召回率;不需要太多的訓練樣本,就可以確保正、中、負文本情感預斷都有較高的準確率。
技術領域
本發明涉及文本情感判斷機器學習技術領域,尤其涉及一種提高情感傾向占比低文本預斷準確率的方法。
背景技術
對客戶的情感分析與準確判斷是商家孜孜追求的目標,隨著互聯網文本數據的海量增長,通過人工來分析數據,已不大可能,因此紛紛引入機器學習方法,來對這些或長、或短文本,通過機器來這些文本所表達的信息,進行情感分析,進而期望對用戶的情感做出精確的判斷與把握。
當下,產生了眾多該類技術:有基于語義的,也有基于統計的;有的是監督式的,也有非監督式,還有半監督式;有基于傳統SVM或隨機森林算法,也有基于深度學習的;有專于短文本,也有專于長文本的。但從目前公開的情況來看,此類技術的表現并不是那么盡如人意。比如百度的公開短文本情感分析引擎,我們測下來,其準確度也僅在75%左右。特別是該準確度是對樣本總體而言,如果某類情感傾向的樣本在數據集中占比低的話,該準確率將更低。
而現實互聯網世界里,這種占比極度的不衡:將文本的情感傾向定為:中性、正面與負面,據統計,三者的占比大抵為:67%,20%,13%。現有的機器學習算法都做不到文本情感判斷的較高的召回率,加上中性文本的基數,將中性樣本預判成其它的樣本的數量甚至超過負面,或正面本身的樣本數量,從而導致預判樣本中的負面、或正面的占比不超過50%,因此上述的機器算法在互聯網文本情感預判的實戰中,效果很差。然而,負面與正面的信息識別,對用戶而言,又常比中性文本要重要的多。同時,還存在著正面判成負面,或負面判成正面的情形,這不管是對用戶的決策輔助,還是提供給用戶的體驗,都是極其糟糕的。
分析下來,當前制約占比低情感傾向文本預判準確度低的主要原因有:
1、現有的機器學習算法本身無法識別出文本分類的占比;
2、現有情感分析模型里沒有應對文本分類占比不一的情形;
3、現有的機器學習算法,難以實現正、中、負幾類文本情感預判的召回率都較高(比如90%);
4、現實互聯網環境中的文本情感傾向占比嚴重失衡。
總之,來之互聯網的文本情感傾向為中性的占絕大多數,在當前情感分析算法的準確率與召回率指標下,還難以做到對負面、或正面情感傾向文本的預判,做到大體是正確的。
申請人認為通過機器學習算法,來代替人工對文本進行情感分析,可以極大地提高效率,也是應對互聯網蓬勃發展的正確途徑,但要能夠真正支持實戰,還需要面對互聯網文本情感傾向占比不一致的現實情況,積極應對,找到提高負面與正面樣本預判準確度的方法,確保向用戶提供的預判信息大致是正確的。
發明內容
本發明為解決上述技術問題而采用的技術方案是提供一種提高情感傾向占比低文本預斷準確率的方法,其中,具體技術方案為:
1)設計一個召回率都差不多的情感模型;
假設一個方案對正、中、負情感傾向樣本預判的準確度都達到60%以上,方滿足用戶對情感預判大概率正確的要求,基于上述正、中、負樣本的占比,來看看沒有引入本方案后面的設計發明時,所要求情感模型對各情感傾向樣本召回率;
2)設計以下的方案,保證占比高的樣本預判的準確度仍在合理的范圍之內;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海五節數據科技有限公司,未經上海五節數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811335523.6/2.html,轉載請聲明來源鉆瓜專利網。





