[發明專利]基于文本語義相關的網絡輿情信息分析方法有效
| 申請號: | 201310482522.5 | 申請日: | 2013-10-15 |
| 公開(公告)號: | CN103544255B | 公開(公告)日: | 2017-01-11 |
| 發明(設計)人: | 陶宇煒;謝愛娟;熊長江;王娟琳 | 申請(專利權)人: | 常州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 213164 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 語義 相關 網絡 輿情 信息 分析 方法 | ||
1.基于文本語義相關的網絡輿情信息分析方法,其特征在于:采用包括網絡輿情信息采集模塊、輿情信息萃取模塊、輿情信息預處理模塊、輿情信息挖掘模塊、輿情信息分析模塊和包含輿情信息數據庫的網絡輿情信息分析系統,并包括如下步驟:?
a.網絡輿情信息采集模塊從網頁中采集各種輿情信息,并存儲到輿情信息數據庫中;?
b.輿情信息萃取模塊和輿情信息預處理模塊將步驟a采集的輿情信息進行初步過濾和切分,抽取文本所包含的內容信息,為輿情信息挖掘提供數據服務;?
c.在步驟b基礎上,輿情信息挖掘模塊采用基于語義相似度的改進文本聚類分析方法,生成類別描述信息,篩選出聚類分析結果中包含的文本信息;利用基于特征統計的TFIDF詞頻特征計算方法統計類別特征,獲取類別特征詞,選擇名詞作為候選類別特征詞,按照候選特征詞權重排序,以權重值較大的候選特征詞作為類別關鍵詞,利用類別關鍵詞之間的語義關系,形成分類結果;識別和建立新的網絡輿情主題,檢測、跟蹤已有輿情主題的相關內容;?
d.最后,輿情信息分析模塊把輿情信息經過步驟c挖掘的數據進行OLAP多維統計分析,分析輿情主題內容關注度、輿情主題情感傾向等輿情評測指標。?
2.根據權利要求1所述的基于文本語義相關的網絡輿情信息分析方法,其特征是,在步驟a中,所述輿情信息采集模塊,是對網絡輿情信息源進行采集,不僅要完成網頁的爬取,而且要將網頁內容進行格式化處理,提取輿情的主題和內容,所得數據存入txt格式或html格式文件,并存儲到輿情信息數據庫;網絡輿情信息采集模塊采用分時訪問、定時更換IP地址和模擬瀏覽器進行單點登錄三種技術結合進行防屏蔽。?
3.根據權利要求2所述的基于文本語義相關的網絡輿情信息分析方法,其特征是,所述輿情信息采集模塊執行的具體步驟為,從預先定義的主題相關網頁的URL開始,獲取網頁中的文本信息,并從當前網頁中抽取新的URL放入隊列中,直到滿足條件的輿情信息采集完畢,URL隊列為空為止;將采集到的網頁文本信息按照字段分類存儲到輿情信息數據庫中,提供輿情信息萃取模塊調用。?
4.根據權利要求1所述的基于文本語義相關的網絡輿情信息分析方法,其特征是,在步驟b中,所述輿情信息萃取模塊,是清除網頁中的無關內容,提取對輿情分析有用的正文部分的元信息,對文本進行重構,將具有主題代表性的信息聚集在一起;所述輿情信息預處理模塊,是對采集的輿情信息源經過所述輿情信息萃取模塊萃取后,進行中文分詞處理、過濾停用詞、命名實體識別、詞性標注、語法解析和特征詞提取,建立正序索引和倒排索引;建立文本特征語義網絡圖,以文本中包含的實體E作為圖的節點,兩個實體之間的語義關系作為圖的有向邊,實體之間的語義關系結合詞頻信息作為節點的權重,有向邊的權重表示實體關系在文本中的重要程度,所述實體E包括事物實體NE、事件實體VE、事件關系實體RE;統計文本的詞頻和文本頻率信息,然后進行特征詞抽取,選取體現文本特征的詞表示該文本。?
5.根據權利要求4所述的基于文本語義相關的網絡輿情信息分析方法,其特征是,在步驟c中,所述輿情信息挖掘模塊,是在對文本集進行預處理,包括中文分詞處理、停用詞過濾和結構化標簽信息分析后,將信息萃取模塊生成的文本數據集,根據文本特征語義網絡圖構建的文本語義特征描述結構,利用相似度評價方法計算文本之間的語義相似度,構建相似度矩陣,采用基于語義?相似度的改進文本聚類分析方法生成聚類結果;聚類分析結果生成類別描述信息,篩選出聚類分析結果中包含的文本信息;利用基于特征統計的TFIDF詞頻特征計算方法統計類別特征,獲取候選類別特征詞,選擇名詞作為候選類別特征詞,按照候選特征詞權重排序,以權重值確定候選特征詞作為類別關鍵詞,利用類別關鍵詞之間的語義關系,形成分類結果;將挖掘結果構建知識庫。?
6.根據權利要求4或5所述的基于文本語義相關的網絡輿情信息分析方法,其特征是,文本特征語義網絡圖是利用實體及其語義關系來表達輿情信息的有向圖,通過網絡節點表示的詞語合并,節點權值相加;再合并有向邊,有向邊權值相加,構建文本特征語義網絡圖,描述文本中的語義信息和主題特征。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于常州大學,未經常州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310482522.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于電光晶體的激光線寬腔外調制器
- 下一篇:一種視頻源名稱處理方法及裝置





