[發明專利]一種文本情感分類方法、系統、裝置及存儲介質在審
| 申請號: | 201911410177.8 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111159410A | 公開(公告)日: | 2020-05-15 |
| 發明(設計)人: | 寇永嫻;占太雄;陳惠芳;黃嬌燕;余嘉昇 | 申請(專利權)人: | 廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06K9/62 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 黎揚鵬 |
| 地址: | 510663 廣東省廣州市廣州高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 情感 分類 方法 系統 裝置 存儲 介質 | ||
本發明公開了一種文本情感分類方法、系統、裝置及存儲介質,該方法包括:對文本進行預處理;對預處理后的文本進行統計量計算,得到文本向量;采用卡方統計方法對文本向量進行特征選擇,提取出特征向量;對特征向量進行權重計算,得到各個特征向量的權重;結合各個特征向量的權重,基于支持向量機對文本進行分類。該系統包括:預處理模塊,統計模塊、特征模塊、權重模塊和分類模塊。該裝置包括存儲器以及用于執行上述文本情感分類方法的處理器。通過使用本發明,可提高文本分類的準確率。本發明作為一種文本情感分類方法、系統、裝置及存儲介質,可廣泛應用于文本分類領域。
技術領域
本發明涉及文本分類領域,尤其涉及一種文本情感分類方法、系統、裝置及存儲介質。
背景技術
情感分類是自然語言處理領域的一個任務,又稱傾向性分析,它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程。它可以分析文本中作者對特定主體的情感偏好和觀點,用于預測電影票房、股票趨勢、輿情分析、改進服務及產品、及了解用戶的體驗等,文本情感分類目前主要研究方法分為基于字典和基于語料庫兩種,對語料庫或字典進行信息挖掘,識別詞語的情感傾向,從而得到統計數據并對其極性做出判斷,但這兩種方法對新詞沒有詞性判別能力,而且由于不是從語義層面判斷,分類得到的結果準確率低。
發明內容
為了解決上述技術問題,本發明的目的是提供一種文本情感分類方法、系統、裝置及存儲介質,可提高文本分類的準確率。
本發明所采用的第一技術方案是:一種文本情感分類方法,包括以下步驟:
對文本進行預處理;
對預處理后的文本進行統計量計算,得到文本向量;
采用卡方統計方法對文本向量進行特征選擇,提取出特征向量;
對特征向量進行權重計算,得到各個特征向量的權重;
結合各個特征向量的權重,基于支持向量機對文本進行分類。
進一步,所述對文本進行預處理這一步驟,其具體包括:
獲取文本,過濾文本的非法字符并對文本進行分詞處理;
去除無關詞并統計詞頻,得到預處理后的文本。
進一步,所述采用卡方統計方法對文本向量進行特征選擇具體采用下述公式:
所述ti是特征項,所述Cj是類別,所述N是文本總數,所述A是包含ti且屬于Cj的數量,所述B是包含ti但不屬于Cj的數量,所述C是屬于Cj但不包含ti的數量,所述D是不屬于Cj且不包含ti的數量。
進一步,所述對特征向量進行權重計算,得到各個特征向量的權重具體采用下述公式:
所述wij表示權重,所述tfij表示ti在文本出現的次數,所述ni表示包含ti的文本數。
進一步,所述對特征向量進行權重計算,得到各個特征向量的權重還包括對權重進行歸一化處理,具體采用下述公式:
所述M表示向量數。
進一步,所述采用卡方統計方法對文本向量進行特征選擇,提取出特征向量這一步驟,其具體包括:
對文本向量的特征項進行評分并按照評分大小對特征項進行排序;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司,未經廣州廣電運通信息科技有限公司;廣州廣電運通金融電子股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911410177.8/2.html,轉載請聲明來源鉆瓜專利網。





