[發(fā)明專利]一種負面輿情指數的計算方法及系統有效
| 申請?zhí)枺?/td> | 201510355005.0 | 申請日: | 2015-06-24 |
| 公開(公告)號: | CN104951548B | 公開(公告)日: | 2018-04-20 |
| 發(fā)明(設計)人: | 李雪梅;劉大偉;劉瑋;王海洋;隋雪青;程學旗;戴鵬飛 | 申請(專利權)人: | 煙臺中科網絡技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創(chuàng)知識產權代理有限公司11212 | 代理人: | 王澎 |
| 地址: | 264003 山東省煙臺*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 負面 輿情 指數 計算方法 系統 | ||
1.一種負面輿情指數的計算方法,其特征在于,包括以下步驟:
步驟S1,對待分類文本進行基于情感詞典的正負面分類和基于Model模型的SVM分類,分別得到分類結果1和分類結果2;
步驟S2,若所述分類結果1與所述分類結果2的值都為負面,則認為待分類文本為負面,繼續(xù)執(zhí)行步驟S3;若所述分類結果1與所述分類結果2的值不都為負面,則認為待分類文本為非負面,計算結束;
步驟S3,將待分類文本分別與用戶標注負面詞典和訓練集關鍵詞典匹配,分別得到負面指標1和負面指標2;
步驟S4,將分類結果1的值、所述負面指標1和所述負面指標2進行線性組合,得到待分類文本的負面輿情指數。
2.根據權利要求1所述的負面輿情指數的計算方法,其特征在于,在執(zhí)行步驟S1之前,還包括在待分類文本是垃圾網頁的情況下對待分類文本進行過濾。
3.根據權利要求1所述的負面輿情指數的計算方法,其特征在于,步驟S3中所述用戶標注負面詞典即用戶對多篇語料進行正負面人工標注形成的詞典;
所述訓練集關鍵詞典的形成包括:對訓練集中的負面語料進行ICTCLAS分詞處理并進行VSM文本表示,然后進行TFIDF特征選擇,從TFIDF特征選擇的結果中抽取TFIDF權重最大的前p個關鍵詞,其中p為大于等于1的整數;將所述訓練集中的負面語料抽取的關鍵詞去重、歸一化權重后即形成所述訓練集關鍵詞典;其中所述訓練集為人工標注正負面的正面語料和負面語料的集合。
4.根據權利要求3所述的負面輿情指數的計算方法,其特征在于,步驟S1中,所述基于情感詞典的正負面分類為基于通用情感詞典的無監(jiān)督分類器對待分類文本進行分類;
所述Model模型的形成包括以下步驟:
對所述訓練集進行TFIDF特征選擇,并將TFIDF特征選擇后的結果用矩陣Am×n表示,其中m表示訓練集中關鍵詞的總數,m為大于等于1的整數,n表示訓練集中語料總數,n為大于等于1的整數;
對矩陣Am×n進行奇異值分解,SVD(Am×n)=Um×mΣm×nVTn×n,其中Um×m矩為m×m的方陣,Σm×n為m×n的對角矩陣,VTn×n為n×n的方陣;
取矩陣Am×n的前k個奇異值對應的矩陣VTk×n來表示矩陣Am×n,其中k為大于等于1的整數;
對矩陣VTk×n進行SVM訓練,得到Model模型。
5.根據權利要求3所述的負面輿情指數的計算方法,其特征在于,步驟S4后還包括將負面輿情指數值超過預定閾值的待分類文本和所述分類結果1與所述分類結果2的值均為非負面的待分類文本作為新的負面和非負面語料更新所述訓練集。
6.一種負面輿情指數的計算系統,其特征在于,包括基于情感詞典的正負面分類模塊、基于Model模型的SVM分類模塊、正負面判斷模塊、用戶標注負面詞典匹配模塊、訓練集關鍵詞典匹配模塊和線性組合模塊;
所述基于情感詞典的正負面分類模塊用于對待分類文本進行基于情感詞典的正負面分類并得到分類結果1;
所述基于Model模型的SVM分類模塊用于對待分類文本進行基于Model模型的SVM分類并得到分類結果2;
所述正負面判斷模塊用于判斷分類結果1和分類結果2的正負面;
所述用戶標注負面詞典匹配模塊用于將待分類文本與用戶標注負面詞典匹配,得到負面指標1;
所述訓練集關鍵詞典匹配模塊用于將待分類文本與訓練集關鍵詞典匹配,得到負面指標2;
所述線性組合模塊用于將分類結果1的值、負面指標1和負面指標2進行線性組合,得到待分類文本的負面輿情指數。
7.根據權利要求6所述的負面輿情指數的計算系統,其特征在于,還包括待分類文本過濾模塊,用于在待分類文本是垃圾網頁的情況下對待分類文本進行過濾。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于煙臺中科網絡技術研究所,未經煙臺中科網絡技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510355005.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于位權重的二值碼重排方法
- 下一篇:一種大數據在線交互式查詢方法及系統





