[發明專利]一種提高情感傾向占比低文本預斷準確率的方法有效
| 申請號: | 201811335523.6 | 申請日: | 2018-11-10 |
| 公開(公告)號: | CN109492226B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 劉洋;陳福 | 申請(專利權)人: | 上海五節數據科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/30;G06F18/214 |
| 代理公司: | 上海牧信專利代理事務所(普通合伙) 31416 | 代理人: | 盛際豐 |
| 地址: | 201100 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提高 情感 傾向 文本 預斷 準確率 方法 | ||
1.一種提高情感傾向占比低文本預斷準確率的方法,其特征在于:
1)設計一個召回率高的情感模型;
假設一個方案對正、中、負情感傾向樣本預判的準確度都達到60%以上,方滿足用戶對情感預判大概率正確的要求,基于上述正、中、負樣本的占比,判斷沒有引入本方案后面的設計發明時,所要求情感模型對各情感傾向樣本召回率;
2)設計以下的方案,保證占比高的樣本預判的準確度仍在合理的范圍之內;
但在實施下面的設計時,還是先要有一個召回率大體相近的情感模型,以保障:
(1)各類樣本以相同的比率召回或不被召回;
(2)確保方案,在情感傾向樣本占比發生變化時,仍然適用;下面是
該模型的訓練過程:
(1)隨機從相應工作環境中抽取樣本集;
(2)組織人手對上面所抽取的樣本集進行情感傾向標注;
(3)隨機從樣本集中各占1/3的比率,抽取正、中、負的訓練集;
(4)選擇合適的機器算法進行訓練,確保各類情感傾向文本的召回率;
(5)訓練得到模型,并從人工標注樣本集中,抽取占比為1/3的樣本組織測試集,進行測試并選定模型;
3)設計召回率有偏頗的情感模
型;該模型的訓練過程:
(1)隨機從相應工作環境中抽取樣本集;
(2)組織人手對上面所抽取的樣本集進行情感傾向標注,并根據標注結果統計正、中、負各類文本的占比;
(3)占比高那類文本按占比比例抽取樣本,作為訓練集的一部分;
(4)想要提高準確度那類文本,抽取與上面占比高那類文本同樣數量的樣本,同樣作為訓練集的一部分;
(5)而剩下那類文本,則根據其占比抽取相應數量的樣本,作為訓練集剩下的部分;(6)
選擇合適的機器算法進行訓練,確保占比高類與想要提高準確度類情感傾向文本的召回率;
(7)訓練得到模型,并按上面訓練樣本集抽取的方式抽取測試樣本集,進行測試并選定模型;
4)設計一個基礎模型+壓制模型的串聯式組合模型
這里,將上面的基礎模型與壓制模型,以串聯的方式組合起來使用,組成一個組合模型,通過該模型來完成對實際環境中的文本進行情感預判;
對負面的文本實施了壓制模型的情感預判,以進一步提高該類文本預判的準確度,下面就以互聯網環境中中性文本占比多,正面文本次之,負面文本最低的情況,以提高負面文本情感預判準確度為目標,來描述該組合模型的使用:
1)文本通過基礎模型,將被預判為正、中、負文本;
2)收集負面文本,調用壓制模型,將文本預判為正、中、負文本;
3)將壓制模型預判為中、正的文本,分別歸為中性文本與正面文本。
2.如權利要求1所述的提高情感傾向占比低文本預斷準確率的方法,其特征在于:2)設計召回率有偏頗的情感模型;此模型會對沒有考慮的那類文本,判斷是否有幫助;同時,在后面的方案中,該模型主要作用:就是將占比高類文本中,誤判到想要提高準確度類的樣本,進行壓制,或從該類預判結果中清理出去;因此,稱之為壓制模型;測試下來,該模型對于占比高和想要提高準確度那類文本預判的召回率可輕松超過80%。
3.如權利要求2所述的提高情感傾向占比低文本預斷準確率的方法,其特征在于:修正基礎模型的召回率為70%,而壓制模型對中性文本和負面文本的召回率為80%,對正面文本的召回率為10%;
目前,正面樣本的準確度還不高,同樣的原理,可以訓練得到另一個對中性與正面文本情感預判召回率高的壓制模型,并利用該模型對正面文本預判的準確度,進行抬升,但為了對前面負面文本預判結果的影響,步驟有所不同:
1)收集調用負面壓制模型后,匯總所得預判為正面的文本;
2)調用正面壓制模型,對上面收集的正面文本集,進行正、中、負預判;
3)將所有非負的預判文本歸入中性文本集,預判為正面的文本歸入正面文集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海五節數據科技有限公司,未經上海五節數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811335523.6/1.html,轉載請聲明來源鉆瓜專利網。





