[發明專利]一種基于混合分類器的短文本情感細分類方法在審
| 申請號: | 202010045736.6 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111241286A | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 盧莉 | 申請(專利權)人: | 東方紅衛星移動通信有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 重慶啟恒騰元專利代理事務所(普通合伙) 50232 | 代理人: | 萬建 |
| 地址: | 401135 重慶*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 分類 文本 情感 細分 方法 | ||
本發明公開了一種基于混合分類器的短文本情感細分類方法,采用支持向量機分類器、長短記憶網絡分類器和基于詞典的分類方法組合而成的混合分類器,使用少量的訓練樣本對各分類器進行訓練,然后利用各分類器對未標注樣本進行情感類別的預測,使用加權公式計算出文本的置信度,將置信度較高的文本加入到訓練集中,再用新的訓練集對分類器進行訓練,如此迭代形成效果最佳的分類器進行分類。本發明具有分類效果好、標注訓練集需求小的優點。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種基于混合分類器的短文本情感細分類方法。
背景技術
隨著互聯網技術的發展,越來越多的信息平臺隨之產生,包含了日常生活中的方方面面,如社會資訊、熱點新聞、購物、娛樂等,人們根據愛好的不同在各種平臺發布自己的感受,但是每個人對生活中的各種現象所表達的態度和意見也存在極大差異,這種差異蘊含著極大的商業價值和社會價值。因此,對這類文本進行情感分析具有十分重要的意義和應用價值。
近年來隨著學術界對文本情感分析的不斷重視,國內外的研究機構不斷投入人力、物力對其進行研究,目前對文本的分類根據粒度的不同分為詞語級、句子級、篇章級三種不同的級別。對文本情感類別的分類包含二分類(正向和負向),三分類(正向、中性以及負向),多分類(喜、怒、哀、樂等情感),使用的分類技術主要分為基于詞典和規則的分類方法和基于機器學習的情感分類方法。使用基于情感詞典的情感分類技術對情感詞典的依賴性較強,情感詞典的質量對最終情感類別的預測準確率起決定性作用,同時由于中文語義表達的多樣且語境復雜,使得基于情感詞典的情感分類方法對文本的分類效果不盡如意。相比之下,機器學習方法更適用于文本的情感分類。
基于機器學習的方法在對文本進行情感分類時需要將文本轉化為機器學習可以識別的向量模型,再使用分類算法對帶有標簽的文本進行學習,當分類算法中的參數取得最優時,再使用分類算法對沒有標簽的文本進行分類。基于機器學習的學習模式主要有監督學習、半監督學習、無監督學習。監督學習需要大量的標注樣本,這在實際的應用中造成大量人力成本的消耗。無監督學習雖然不需要對樣本進行標注,但是它對初始參數的選取要求較高。半監督學習對標注樣本的需求量沒有那么大,同時相對于無監督學習,半監督學習往往會取得更高的分類準確率。
在實際應用中半監督學習雖然可以減少對標注訓練集數量的需求,但是由于已標注的文本訓練集數量較少,無法對單個的分類器訓練出較高的準確率,這就導致分類器對未標注的樣本的分類準確率低,對樣本標以錯誤的情感標簽,這些錯誤的標簽會添加到訓練集中,會對訓練集造成噪聲污染,對分類器的訓練結果造成影響。因此在既能發揮半監督學習在少量標注訓練集下的優勢,又可以保證情感分類的正確率不低很重要。
發明內容
針對上述現有技術的不足,本專利申請所要解決的技術問題是:如何提供一種分類效果好、標注訓練集需求小的基于混合分類器的短文本情感細分類方法。
為了實現上述目的,本發明采用了如下技術方案:
一種基于混合分類器的短文本情感細分類方法,:采用長短記憶網絡分類器、支持向量機分類器和基于詞典的分類方法形成混合分類器,達到使用少量訓練樣本對混合分類器進行訓練,并通過不斷迭代循環,尋找分類效果最好的分類器進行分類,具體包括以下步驟:
S1:對文本進行預處理;
S2:將S1中預處理后的帶有標簽的樣本分別對長短記憶網絡分類器、支持向量機分類器進行訓練;
S3:將未標注的文本在S2中訓練好的兩種分類器和基于情感詞典的方法進行感情類別預測,輸出結果為CL、CS和CD;
S4:判斷三個分類器的預測結果,若相同,則確定當前情感類別的預測值,并進入步驟S5,若不相同放棄當前文本情感類別預測值,并返回S3;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東方紅衛星移動通信有限公司,未經東方紅衛星移動通信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010045736.6/2.html,轉載請聲明來源鉆瓜專利網。





