[發明專利]一種負面輿情指數的計算方法及系統有效
| 申請號: | 201510355005.0 | 申請日: | 2015-06-24 |
| 公開(公告)號: | CN104951548B | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 李雪梅;劉大偉;劉瑋;王海洋;隋雪青;程學旗;戴鵬飛 | 申請(專利權)人: | 煙臺中科網絡技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創知識產權代理有限公司11212 | 代理人: | 王澎 |
| 地址: | 264003 山東省煙臺*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 負面 輿情 指數 計算方法 系統 | ||
技術領域
本發明涉及領域,尤其涉及一種負面輿情指數的計算方法及系統。
背景技術
據中國互聯網絡信息中心(CNNIC)統計,截止2014年12月,中國網民規模達6.49億。互聯網普及率達到47.9%,較2013年底提升了2.1個百分點。2014年,中國網民的人均每周上網時長達26.1小時,相比2013年底增加了1.1個小時。這說明互聯網發展重心從“廣泛”向“深入”轉換,各項網絡應用深刻改變網民生活。
隨著互聯網的發展,互聯網絡作為社會輿論的工具,具有反應和引導社會輿論的功能。針對這種自由無序的網絡輿情信息,網絡輿情指數計算的導向作用顯得日益強大。及時掌握輿情動態、積極引導社會輿情,是維護社會穩定的重要舉措。因此,輿情指數計算是研究輿情監控、事態推演以及預測等技術的基礎,研究負面輿情指數計算具有重要的理論和實際意義。
負面輿情指數計算的理論方法主要是文本(本發明主要處理中文文本)分類中的二分類問題(負面與非負面),在文本分類中主要涉及分詞處理、特征選擇、文本表示、文本分類算法、評價指標等。
目前中國人民大學輿論研究所與百度合作,基于百度的海量搜索數據提出了中國冷暖度指數等14個輿情指數。他們認為搜索量的高低反映了民眾對該關鍵詞所代表事件的關注程度。百度每年匯總出全年搜索量最高和關注熱度上升最快的前1000個搜索熱詞,由之可以較為粗略地“刻畫”出中國網民關注中國社會的“素描圖”。這種技術對熱搜詞做了綜合的和整體式的解讀,但如果對整個社會基本面的宏觀把握和理解所需的周期太長,對一個事件的輿情判斷至少需要數天、數周甚至數月。
為了避免人工標注訓練集進行有監督的輿情指數計算,有的學者提出用無監督聚類的方法實現對輿情指數的計算。使用無監督聚類方法首先在效果上不如有監督的文本分類,聚類簇數事先是未知的。其次,在超大規模數據集上的效率是否在可接受范圍內還需要考證。
對文本進行特征選擇后用VSM描述特征空間會存在一種缺陷,即特征空間的數據稀疏性,并且僅使用VSM描述不做任何處理的話不能很好的反映詞匯間的語義關系。
南京大學的王昊與蘇新寧提出一種基于條件隨機場(Conditional Random Fields,CRFs)的角色標注模型。利用該模型對新聞或論壇討論帖的標題進行角色標注,通過對人名出現次數的統計結合人名的背景進行輿情關注點的發現。但是該模型需要的輿情發現語料集封閉性的,具有一定的限制性。
發明內容
本發明所要解決的技術問題是提供一種負面輿情指數的計算方法及系統。
本發明解決上述技術問題的技術方案如下:一種負面輿情指數的計算方法,包括以下步驟:
步驟S1,對待分類文本進行基于情感詞典的正負面分類和基于Model模型的SVM分類,分別得到分類結果1和分類結果2;
步驟S2,若所述分類結果1與所述分類結果2的值都為負面,則認為待分類文本為負面,繼續執行步驟S3;若所述分類結果1與所述分類結果2的值不都為負面,則認為待分類文本為非負面,計算結束;
步驟S3,將待分類文本分別與用戶標注負面詞典和訓練集關鍵詞典匹配,分別得到負面指標1和負面指標2;
步驟S4,將所述分類結果1、所述負面指標1和所述負面指標2進行線性組合,得到待分類文本的負面輿情指數。
在上述技術方案的基礎上,本發明還可以做如下改進。
進一步地,在執行步驟S1之前,還包括在待分類文本是垃圾網頁的情況下對待分類文本進行過濾。
進一步地,步驟S3中所述用戶標注負面詞典即用戶對多篇語料進行正負面人工標注形成的詞典;
所述訓練集關鍵詞典的形成包括:對訓練集中的負面語料進行ICTCLAS分詞處理并進行VSM文本表示,然后進行TFIDF特征選擇,從TFIDF特征選擇的結果中抽取TFIDF權重最大的前p個關鍵詞,其中p為大于等于1的整數;將所述訓練集中的負面語料抽取的關鍵詞去重、歸一化權重后即形所述成訓練集關鍵詞典;其中所述訓練集為人工標注正負面的正面語料和負面語料的集合。
進一步地,步驟S1中,所述基于情感詞典的正負面分類為基于通用情感詞典的無監督分類器對待分類文本進行分類;
所述Model模型的形成包括以下步驟:
對所述訓練集進行TFIDF特征選擇,并將TFIDF特征選擇后的結果用矩陣Am×n表示,其中m表示訓練集中關鍵詞的總數,m為大于等于1的整數,n表示訓練集中語料總數,n為大于等于1的整數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于煙臺中科網絡技術研究所,未經煙臺中科網絡技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510355005.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于位權重的二值碼重排方法
- 下一篇:一種大數據在線交互式查詢方法及系統





