[發明專利]一種文本情感分類方法、系統、裝置及存儲介質在審
| 申請號: | 201911410177.8 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111159410A | 公開(公告)日: | 2020-05-15 |
| 發明(設計)人: | 寇永嫻;占太雄;陳惠芳;黃嬌燕;余嘉昇 | 申請(專利權)人: | 廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06K9/62 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 黎揚鵬 |
| 地址: | 510663 廣東省廣州市廣州高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 情感 分類 方法 系統 裝置 存儲 介質 | ||
1.一種文本情感分類方法,其特征在于,包括:
對文本進行預處理;
對預處理后的文本進行統計量計算,得到文本向量;
采用卡方統計方法對文本向量進行特征選擇,提取出特征向量;
對特征向量進行權重計算,得到各個特征向量的權重;
結合各個特征向量的權重,基于支持向量機對文本進行分類。
2.根據權利要求1所述的一種文本情感分類方法,其特征在于,所述對文本進行預處理這一步驟,其具體包括:
獲取文本,過濾文本的非法字符并對文本進行分詞處理;
去除無關詞并統計詞頻,得到預處理后的文本。
3.根據權利要求1所述的一種文本情感分類方法,其特征在于,所述采用卡方統計方法對文本向量進行特征選擇具體采用下述公式:
所述ti是特征項,所述Cj是類別,所述N是文本總數,所述A是包含ti且屬于Cj的數量,所述B是包含ti但不屬于Cj的數量,所述C是屬于Cj但不包含ti的數量,所述D是不屬于Cj且不包含ti的數量。
4.根據權利要求3所述的一種文本情感分類方法,其特征在于,所述對特征向量進行權重計算,得到各個特征向量的權重具體采用下述公式:
所述wij表示權重,所述tfij表示ti在文本出現的次數,所述ni表示包含ti的文本數。
5.根據權利要求4所述的一種文本情感分類方法,其特征在于,所述對特征向量進行權重計算,得到各個特征向量的權重還包括對權重進行歸一化處理,具體采用下述公式:
所述M表示向量數。
6.根據權利要求1所述的一種文本情感分類方法,其特征在于,所述采用卡方統計方法對文本向量進行特征選擇,提取出特征向量這一步驟,其具體包括:
對文本向量的特征項進行評分并按照評分大小對特征項進行排序;
按照預設數量獲得文本特征項,采用卡方統計方法提取該文本的特征向量。
7.根據權利要求1所述的一種文本情感分類方法,其特征在于:所述無關詞包括停用詞、代詞、量詞、助詞、連詞和擬聲詞。
8.一種文本情感分類系統,其特征在于,包括:
預處理模塊,用于對文本進行預處理;
統計模塊,用于對預處理后的文本進行統計量計算,得到文本向量;
特征模塊,用于采用卡方統計方法對文本向量進行特征選擇,提取出特征向量;
權重模塊,用于對特征向量進行權重計算,得到各個特征向量的權重;
分類模塊,用于結合各個特征向量的權重,基于支持向量機對文本進行分類。
9.一種文本情感分類裝置,其特征在于,還包括:
至少一個處理器;
至少一個存儲器,用于存儲至少一個程序;
當所述至少一個程序被所述至少一個處理器執行,使得所述至少一個處理器實現如權利要求1-7任一項所述一種文本情感分類方法。
10.一種存儲介質,其中存儲有處理器可執行的指令,其特征在于:所述處理器可執行的指令在由處理器執行時用于實現如權利要求1-7任一項所述一種文本情感分類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司,未經廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911410177.8/1.html,轉載請聲明來源鉆瓜專利網。





