[發明專利]基于文本語義相關的網絡輿情信息分析方法有效
| 申請號: | 201310482522.5 | 申請日: | 2013-10-15 |
| 公開(公告)號: | CN103544255B | 公開(公告)日: | 2017-01-11 |
| 發明(設計)人: | 陶宇煒;謝愛娟;熊長江;王娟琳 | 申請(專利權)人: | 常州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 213164 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 語義 相關 網絡 輿情 信息 分析 方法 | ||
技術領域
本發明涉及網絡信息技術領域,具體是一種基于文本語義相關的網絡輿情信息分析方法。?
背景技術
當今社會,互聯網已經滲透到人們的日常生活中,微博、論壇、博客等即時通信工具已經成為人們獲取信息,進而發表看法、傳播信息的重要渠道。借助網絡平臺,輿情信息迅速傳播,引起廣泛關注,其傳播的速度之快、范圍之廣、影響力之大,遠非傳統媒體可比,網絡空間的匿名交互性、非時空限制性等特點,使網絡輿情這股強大的社會輿論力量,對社會發展和穩定產生一定的沖擊和影響。正面的網絡輿情似“正能量”,推動和促進社會發展;負面的網絡輿情對社會穩定形成負面效應,引發輿情危機。由此,加強網絡輿情信息監測、分析、管理,對穩定社會秩序、構建和諧社會具有重要的現實意義。對網絡輿情信息及時監測、正確判斷決策、迅速及時回應,積極采取有效措施化解輿情危機,成為網絡輿情管理工作的重點和難點問題。?
發明內容
針對上述背景技術中網絡輿情信息的特點和網絡輿情信息管理中需要解決的問題,本發明提供一種基于文本語義相關的網絡輿情信息分析方法。?
本發明解決其技術問題所采用的技術方案是,一種基于文本語義相關的網絡輿情信息分析方法。采用包括網絡輿情信息采集模塊、輿情信息萃取模塊、輿情信息預處理模塊、輿情信息挖掘模塊、輿情信息分析模塊和包含輿情信息數據庫的網絡輿情信息分析系統,并包括如下步驟:?
a.網絡輿情信息采集模塊從網頁中采集各種輿情信息,并存儲到輿情信息數據庫中;?
b.輿情信息萃取模塊和輿情信息預處理模塊將步驟a采集的輿情信息進行初步過濾和切分,抽取文本所包含的內容信息,為輿情信息挖掘提供數據服務;?
c.在步驟b基礎上,輿情信息挖掘模塊采用基于語義相似度的改進文本聚類分析方法,生成類別描述信息,篩選出聚類分析結果中包含的文本信息;利用基于特征統計的TFIDF詞頻特征計算方法統計類別特征,獲取類別特征詞,選擇名詞作為候選類別特征詞,按照候選特征詞權重排序,以權重值較大的候選特征詞作為類別關鍵詞,利用類別關鍵詞之間的語義關系,形成分類結果;識別和建立新的網絡輿情主題,檢測、跟蹤已有輿情主題的相關內容;?
d.最后,輿情信息分析模塊把輿情信息經過步驟c挖掘的數據進行OLAP多維統計分析,分析輿情主題內容關注度、輿情主題情感傾向等輿情評測指標。?
在步驟a中,所述輿情信息采集模塊,是對網絡輿情信息源進行采集,與一般的網絡爬蟲不同的是,它不僅要完成網頁的爬取,而且要將網頁內容進行格式化處理,提取輿情的主題和內容,所得數據存入txt格式或html格式文件,并存儲到輿情信息數據庫;網絡輿情信息采集模塊采用分時訪問、定時更換IP地址和模擬瀏覽器進行單點登錄三種技術結合進行防屏蔽。網絡輿情信息采集模塊采用分時訪問、定時更換IP地址和模擬瀏覽器進行單點登錄三種技術結合進行防屏蔽。網絡輿情信息采集模塊執行的具體步驟為:所述輿情信息采集模塊執行的具體步驟為,從預先定義的主題相關網頁的URL開始,獲取網頁中的文本信息,并從當前網頁中抽取新的URL放入隊列中,直到滿足條件的輿情信息采集完畢,URL隊列為空為止;將采集到的網頁文本信息按照字段分類存儲到輿情信息數據庫中,提供輿情信息萃取模塊調用。?
所述輿情信息萃取模塊,是清除網頁中的無關內容,如網頁中的廣告、導航信息、圖片、版權說明等噪聲數據,提取對輿情分析有用的正文部分的元信息,對文本進行重構,將具有主題代表性的信息聚集在一起;所述輿情信息預處理模塊,是對采集的輿情信息源經過所述輿情信息萃取模塊萃取后,進行中文分詞處理、過濾停用詞、命名實體識別、詞性標注、語法解析和特征詞提取,建立正序索引和倒排索引;建立文本特征語義網絡圖,以文本中包含的實體E作為圖的節點,兩個實體之間的語義關系作為圖的有向邊,實體之間的語義關系結合詞頻信息作為節點的權重,有向邊的權重表示實體關系在文本中的重要程度,所述實體E包括事物實體NE、事件實體VE、事件關系實體RE;統計文本的詞頻和文本頻率信息,然后進行特征詞抽取,選取體現文本特征的詞表示該文本。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于常州大學,未經常州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310482522.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于電光晶體的激光線寬腔外調制器
- 下一篇:一種視頻源名稱處理方法及裝置





