[發明專利]一種中文文本情感分析裝置及方法在審
| 申請號: | 201710185937.4 | 申請日: | 2017-03-24 |
| 公開(公告)號: | CN107015965A | 公開(公告)日: | 2017-08-04 |
| 發明(設計)人: | 吳含前;李潔;薛晨洋;陳鋼 | 申請(專利權)人: | 蘇州希格瑪科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 蘇州華博知識產權代理有限公司32232 | 代理人: | 黃珩 |
| 地址: | 215000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 文本 情感 分析 裝置 方法 | ||
1.一種中文文本情感分析裝置,其特征在于,包括:
數據采集模塊,用于采集多條中文文本;
數據預處理模塊,用于對所述數據采集模塊采集的每條中文文本進行預處理;
文本分類模塊,用于將所述數據預處理處理后的中文文本通過最大熵原理進行情感文本分類;
所述數據采集模塊、所述數據預處理模塊和所述文本分類模塊依次連接。
2.根據權利要求1所述的中文文本情感分析裝置,其特征在于,所述數據預處理模塊包括:
評論分析模塊,用于對所述數據采集模塊采集的中文文本進行情感的正負傾向分類;
轉折詞處理模塊,用于對中文文本中出現的轉折詞進行提取,保留轉折詞之后的中文文本,形成新的中文文本;
分詞及詞性標注模塊,用于對所述轉折詞處理模塊處理后的新的中文文本進行詞語識別,并將該中文文本內每個詞語的詞性進行標注;
情感詞語收集模塊,用于對中文文本出現的形容詞、名詞以及動詞進行提取,將提取出的詞與原始情感詞典進行匹配,若該詞在情感慶典中存在,則不寫入情感詞典;否則,則寫入情感詞典;
抽取模塊,用于從原始的多條中文文本中分別抽取若干條形成訓練集和測試集;
所述評論分析模塊、所述轉折詞處理模塊、所述分詞及詞性標注模塊、所述情感詞語收集模塊以及所述抽取模塊依次連接。
3.根據權利要求2所述的中文文本情感分析裝置,其特征在于,所述評論分析模塊在評判中文文本情感的正負傾向時,每條中文文本攜帶有相應的星級或等級信息,所述評論分析模塊對該星級或等級的大小進行評判;
當星級或等級的大小大于正向設定值時,所述評論分析模塊判斷該中文文本為正向文本;
當星級或等級的大小小于負向設定值時,所述評論分析模塊判斷該中文文本為負向文本;
當星級或等級的大小在負向設定值和正向設定值之間時,所述評論分析模塊判斷該中文文本為中性文本。
4.根據權利要求2或3所述的中文文本情感分析裝置,其特征在于,所述抽取模塊具體工作過程如下:
首先,將原始的多條中文文本劃分為正向文本和負向文本并分別保存在正向文本文檔和負向文本文檔中,在進行訓練集和測試集的劃分時,分別在正向文本文檔和負向文本文檔中以一定比例將多條中文文本劃分為測試集和訓練集兩部分;
其次,使用上述構建的情感詞典將測試集和訓練集表示成所述文本分類模塊所需的輸入形式。
5.根據權利要求4所述的中文文本情感分析裝置,其特征在于,所述文本分類模塊包括:
訓練最大熵分類器,抽取訓練集訓練得到一個最大熵分類器;
測試最大熵分類器,使用測試集對上述最大熵分類器進行測試。
6.根據權利要求5所述的中文文本情感分析裝置,其特征在于,所述訓練最大分類器的工作過程如下:
首先,構建訓練集內每條中文文本與分類結果之間的特征函數;
其次,計算其經驗期望和模型期望,最大熵模型的約束條件就是使得任意特征函數的模型期望等于其經驗期望,得到多個滿足此約束條件的概率分布,其中熵最大的分布即為最優概率分布;
最后,利用迭代縮放算法得到特征函數的權重。
7.根據權利要求6所述的中文文本情感分析裝置,其特征在于,所述測試最大熵分類器的工作過程如下:
首先,將上述最大熵分類器應用于測試集上進行測試;
然后,將分類結果與原有測試集的極性標注進行對比,得到tp、fp、fn、tn;
其中,tp指分類器分類結果為正,同時測試集中標注也為正的文本條數;
fp指分類器分類結果為正而測試集中標注是負的文本條數;
fn指分類器分類結果為負而測試集中標注是正的文本條數;
tn指分類器分類結果為負同時測試集中標注也是負的文本條數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州希格瑪科技有限公司,未經蘇州希格瑪科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710185937.4/1.html,轉載請聲明來源鉆瓜專利網。





