[發(fā)明專利]基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法有效

申請?zhí)枺?/td>	201310482522.5	申請日：	2013-10-15
公開（公告）號：	CN103544255B	公開（公告）日：	2017-01-11
發(fā)明（設(shè)計）人：	陶宇煒;謝愛娟;熊長江;王娟琳	申請（專利權(quán)）人：	常州大學(xué)
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	213164 ***	國省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于文本語義相關(guān) 網(wǎng)絡(luò) 輿情信息分析方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征在于：采用包括網(wǎng)絡(luò)輿情信息采集模塊、輿情信息萃取模塊、輿情信息預(yù)處理模塊、輿情信息挖掘模塊、輿情信息分析模塊和包含輿情信息數(shù)據(jù)庫的網(wǎng)絡(luò)輿情信息分析系統(tǒng)，并包括如下步驟：?

a.網(wǎng)絡(luò)輿情信息采集模塊從網(wǎng)頁中采集各種輿情信息，并存儲到輿情信息數(shù)據(jù)庫中；?

b.輿情信息萃取模塊和輿情信息預(yù)處理模塊將步驟a采集的輿情信息進(jìn)行初步過濾和切分，抽取文本所包含的內(nèi)容信息，為輿情信息挖掘提供數(shù)據(jù)服務(wù)；?

c.在步驟b基礎(chǔ)上，輿情信息挖掘模塊采用基于語義相似度的改進(jìn)文本聚類分析方法，生成類別描述信息，篩選出聚類分析結(jié)果中包含的文本信息；利用基于特征統(tǒng)計的TFIDF詞頻特征計算方法統(tǒng)計類別特征，獲取類別特征詞，選擇名詞作為候選類別特征詞，按照候選特征詞權(quán)重排序，以權(quán)重值較大的候選特征詞作為類別關(guān)鍵詞，利用類別關(guān)鍵詞之間的語義關(guān)系，形成分類結(jié)果；識別和建立新的網(wǎng)絡(luò)輿情主題，檢測、跟蹤已有輿情主題的相關(guān)內(nèi)容；?

d.最后，輿情信息分析模塊把輿情信息經(jīng)過步驟c挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計分析，分析輿情主題內(nèi)容關(guān)注度、輿情主題情感傾向等輿情評測指標(biāo)。?

2.根據(jù)權(quán)利要求1所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，在步驟a中，所述輿情信息采集模塊，是對網(wǎng)絡(luò)輿情信息源進(jìn)行采集，不僅要完成網(wǎng)頁的爬取，而且要將網(wǎng)頁內(nèi)容進(jìn)行格式化處理，提取輿情的主題和內(nèi)容，所得數(shù)據(jù)存入txt格式或html格式文件，并存儲到輿情信息數(shù)據(jù)庫；網(wǎng)絡(luò)輿情信息采集模塊采用分時訪問、定時更換IP地址和模擬瀏覽器進(jìn)行單點登錄三種技術(shù)結(jié)合進(jìn)行防屏蔽。?

3.根據(jù)權(quán)利要求2所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，所述輿情信息采集模塊執(zhí)行的具體步驟為，從預(yù)先定義的主題相關(guān)網(wǎng)頁的URL開始，獲取網(wǎng)頁中的文本信息，并從當(dāng)前網(wǎng)頁中抽取新的URL放入隊列中，直到滿足條件的輿情信息采集完畢，URL隊列為空為止；將采集到的網(wǎng)頁文本信息按照字段分類存儲到輿情信息數(shù)據(jù)庫中，提供輿情信息萃取模塊調(diào)用。?

4.根據(jù)權(quán)利要求1所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，在步驟b中，所述輿情信息萃取模塊，是清除網(wǎng)頁中的無關(guān)內(nèi)容，提取對輿情分析有用的正文部分的元信息，對文本進(jìn)行重構(gòu)，將具有主題代表性的信息聚集在一起；所述輿情信息預(yù)處理模塊，是對采集的輿情信息源經(jīng)過所述輿情信息萃取模塊萃取后，進(jìn)行中文分詞處理、過濾停用詞、命名實體識別、詞性標(biāo)注、語法解析和特征詞提取，建立正序索引和倒排索引；建立文本特征語義網(wǎng)絡(luò)圖，以文本中包含的實體E作為圖的節(jié)點，兩個實體之間的語義關(guān)系作為圖的有向邊，實體之間的語義關(guān)系結(jié)合詞頻信息作為節(jié)點的權(quán)重，有向邊的權(quán)重表示實體關(guān)系在文本中的重要程度，所述實體E包括事物實體NE、事件實體VE、事件關(guān)系實體RE；統(tǒng)計文本的詞頻和文本頻率信息，然后進(jìn)行特征詞抽取，選取體現(xiàn)文本特征的詞表示該文本。?

5.根據(jù)權(quán)利要求4所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，在步驟c中，所述輿情信息挖掘模塊，是在對文本集進(jìn)行預(yù)處理，包括中文分詞處理、停用詞過濾和結(jié)構(gòu)化標(biāo)簽信息分析后，將信息萃取模塊生成的文本數(shù)據(jù)集，根據(jù)文本特征語義網(wǎng)絡(luò)圖構(gòu)建的文本語義特征描述結(jié)構(gòu)，利用相似度評價方法計算文本之間的語義相似度，構(gòu)建相似度矩陣，采用基于語義?相似度的改進(jìn)文本聚類分析方法生成聚類結(jié)果；聚類分析結(jié)果生成類別描述信息，篩選出聚類分析結(jié)果中包含的文本信息；利用基于特征統(tǒng)計的TFIDF詞頻特征計算方法統(tǒng)計類別特征，獲取候選類別特征詞，選擇名詞作為候選類別特征詞，按照候選特征詞權(quán)重排序，以權(quán)重值確定候選特征詞作為類別關(guān)鍵詞，利用類別關(guān)鍵詞之間的語義關(guān)系，形成分類結(jié)果；將挖掘結(jié)果構(gòu)建知識庫。?

6.根據(jù)權(quán)利要求4或5所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法，其特征是，文本特征語義網(wǎng)絡(luò)圖是利用實體及其語義關(guān)系來表達(dá)輿情信息的有向圖，通過網(wǎng)絡(luò)節(jié)點表示的詞語合并，節(jié)點權(quán)值相加；再合并有向邊，有向邊權(quán)值相加，構(gòu)建文本特征語義網(wǎng)絡(luò)圖，描述文本中的語義信息和主題特征。?

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于常州大學(xué)，未經(jīng)常州大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310482522.5/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：基于電光晶體的激光線寬腔外調(diào)制器
下一篇：一種視頻源名稱處理方法及裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計算機(jī)輔助設(shè)計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】