[發明專利]一種基于混合分類器的短文本情感細分類方法在審
| 申請號: | 202010045736.6 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111241286A | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 盧莉 | 申請(專利權)人: | 東方紅衛星移動通信有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 重慶啟恒騰元專利代理事務所(普通合伙) 50232 | 代理人: | 萬建 |
| 地址: | 401135 重慶*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 分類 文本 情感 細分 方法 | ||
1.一種基于混合分類器的短文本情感細分類方法,其特征在于:主要包括以下步驟:采用長短記憶網絡分類器、支持向量機分類器和基于詞典的分類方法形成混合分類器,達到使用少量訓練樣本對混合分類器進行訓練,并通過不斷迭代循環,尋找分類效果最好的分類器進行分類,具體包括一下步驟:
S1:對文本進行預處理;
S2:將S1中預處理后的帶有標簽的樣本分別對長短記憶網絡分類器、支持向量機分類器進行訓練;
S3:將未標注的文本在S2中訓練好的兩種分類器和基于情感詞典的方法進行感情類別預測,輸出結果為CL、CS和CD;
S4:判斷三個分類器的預測結果,若相同,則確定當前情感類別的預測值,并進入步驟S5,若不相同放棄當前文本情感類別預測值,并返回S3;
S5:確定文本的情感類別后,根據分類器的不同效果,確定每個分類器的最終置信度貢獻值PL、PS和PD;
S6:根據分類器的性能確定最終置信度計算中的權重Wl、Ws和Wd;
S7:根據文本置信度的計算公式計算出文本的置信度,判斷置信度是否超過設置閾值,若超過,將文本打上相應情感類別的標簽,將打好標簽的文本添加到訓練集中,形成新的訓練集并進入S8,若未超過,返回S2;
S8:將新的訓練集返回S2進行新的訓練;同時進行S9;
S9:判斷新的訓練集在總語料中的不同占比,尋找分類效果最好的混合分類器,并利用該分類器對短文本進行最終分類。
2.根據權利要求1所述的一種基于混合分類器的短文本情感細分類方法,其特征在于,步驟S1中對文本進行預處理時,包括文本清洗和文本分詞的操作。
3.根據權利要求2所述的一種基于混合分類器的短文本情感細分類方法,其特征在于,步驟S3中,進行長短記憶網絡分類器、支持向量機分類器和基于詞典的分類方法預測前,需要對每個分類器的正常情感預測結果分類進行統計,并進行對比。
4.根據權利要求3所述的一種基于混合分類器的短文本情感細分類方法,其特征在于,步驟S5中,在進行貢獻值確定時,分類器的不同效果體現在預測結果中屬于該分類器的次數多則提升對應的貢獻值,反之亦然。
5.根據權利要求4所述的一種基于混合分類器的短文本情感細分類方法,其特征在于,步驟S6中,分類器的性能為分類器的準確率。
6.根據權利要求5所述的一種基于混合分類器的短文本情感細分類方法,其特征在于,步驟S7中,對置信度進行計算式,采用如下公式:
CS=PS·Ws+PL·Wl+PD·Wd
其中Ws、Wl、Wd每個分類器在最終置信度中所占的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東方紅衛星移動通信有限公司,未經東方紅衛星移動通信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010045736.6/1.html,轉載請聲明來源鉆瓜專利網。





