[發明專利]一種基于細粒度標注數據的情感判別方法有效
| 申請號: | 201910809268.2 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN111046171B | 公開(公告)日: | 2022-08-16 |
| 發明(設計)人: | 高正杰;馮翱;宋馨宇 | 申請(專利權)人: | 成都信息工程大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 成都智涌知識產權代理事務所(普通合伙) 51313 | 代理人: | 周正輝 |
| 地址: | 610200 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 細粒度 標注 數據 情感 判別 方法 | ||
1.一種基于細粒度標注數據的情感判別方法,其特征在于,所述方法包括:
步驟1:采集財經領域新聞數據,所述財經領域新聞數據包括不同種類的財經新聞和不同類型的內容;
步驟2:將采集到的新聞數據P分為兩部分,包括標注樣例集P1和無標注樣例集P2,P的數學表達式為:
P=P1∪P2
步驟3:由標注人員按照預先制定好的標注規則,對所述標注樣例集P1中的句子標注出情感關鍵句和非情感關鍵句,以及對應的文章情感標簽T,所述情感關鍵句和非情感關鍵句分別構成情感關鍵句集S和非情感關鍵句集NS,所述標注樣例集P1為訓練第一分類器和第二分類器的訓練集;
步驟4:利用所述情感關鍵句集S與非情感關鍵句集NS中的句子訓練第一分類器,所述第一分類器的輸入為所述情感關鍵句集S與非情感關鍵句集NS中的一個句子,輸出為0或1,其中0代表非情感關鍵句,1代表情感關鍵句,利用交叉熵公式計算第一分類器的輸出與真實值之間的損失函數值loss1,通過反向傳播loss1的值更新第一分類器的權重參數,使所述第一分類器學會篩選所述財經領域新聞中的情感關鍵句子和非情感關鍵句子,當第一分類器的準確率達到設定的第一準確率閾值時結束訓練,保存第一分類器的模型參數WI;
步驟5:將所述情感關鍵句集S作為所述第二分類器的輸入,訓練所述第二分類器,利用交叉熵公式計算第二分類器的輸出與所述文章情感標簽T之間的損失函數值loss2,通過反向傳播loss2的值更新第二分類器的權重參數,使所述第二分類器學會根據情感關鍵句判別文章的情感傾向,當所述第二分類器的準確率達到設定的第二準確率閾值時結束訓練,保存所述第二分類器的模型參數WII;
步驟6:利用步驟4訓練得到的所述第一分類器對所述無標注樣例集P2中的數據進行情感關鍵句子篩選;
步驟7:將步驟6得到的情感關鍵句子輸入到步驟5訓練得到的所述第二分類器,對文章情感傾向進行分類,分類結果中得到的置信度大于預設閾值的結果認為和人工標注數據的效果一致,直接作為訓練數據加入到所述標注樣例集P1中,對于置信度不高的數據則放回所述無標注樣例集P2中;
步驟8:利用主動學習中的采樣策略從所述無標注樣例集P2中選取出最值得標注的句子C,分發給標注人員進行標注,將得到的最終標注結果加入訓練集用于后續重新訓練所述第一分類器和所述第二分類器,通過以下數學表達式選取出最值得標注的句子C:
C=argmax P2(C|I,WI,WII)
argmax表示求使得該函數表達的值最大的時候的C的值,也就是表示從所述無標注樣例集P2中選取出最值得標注的句子C,這些數據在經過人工標注加入訓練集后,再次訓練所述第一分類器和所述第二分類器時能提高這兩個分類器的判別精度;
步驟9:不斷迭代步驟4、步驟5、步驟6、步驟7和步驟8,當所述第一分類器和所述第二分類器的準確率達到設定的第三準確率閾值后訓練結束,得到訓練好的情感判別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學,未經成都信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910809268.2/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





