[發(fā)明專利]基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法有效
| 申請?zhí)枺?/td> | 201310482522.5 | 申請日: | 2013-10-15 |
| 公開(公告)號: | CN103544255B | 公開(公告)日: | 2017-01-11 |
| 發(fā)明(設(shè)計)人: | 陶宇煒;謝愛娟;熊長江;王娟琳 | 申請(專利權(quán))人: | 常州大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 213164 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 文本 語義 相關(guān) 網(wǎng)絡(luò) 輿情 信息 分析 方法 | ||
1.基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征在于:采用包括網(wǎng)絡(luò)輿情信息采集模塊、輿情信息萃取模塊、輿情信息預(yù)處理模塊、輿情信息挖掘模塊、輿情信息分析模塊和包含輿情信息數(shù)據(jù)庫的網(wǎng)絡(luò)輿情信息分析系統(tǒng),并包括如下步驟:?
a.網(wǎng)絡(luò)輿情信息采集模塊從網(wǎng)頁中采集各種輿情信息,并存儲到輿情信息數(shù)據(jù)庫中;?
b.輿情信息萃取模塊和輿情信息預(yù)處理模塊將步驟a采集的輿情信息進(jìn)行初步過濾和切分,抽取文本所包含的內(nèi)容信息,為輿情信息挖掘提供數(shù)據(jù)服務(wù);?
c.在步驟b基礎(chǔ)上,輿情信息挖掘模塊采用基于語義相似度的改進(jìn)文本聚類分析方法,生成類別描述信息,篩選出聚類分析結(jié)果中包含的文本信息;利用基于特征統(tǒng)計的TFIDF詞頻特征計算方法統(tǒng)計類別特征,獲取類別特征詞,選擇名詞作為候選類別特征詞,按照候選特征詞權(quán)重排序,以權(quán)重值較大的候選特征詞作為類別關(guān)鍵詞,利用類別關(guān)鍵詞之間的語義關(guān)系,形成分類結(jié)果;識別和建立新的網(wǎng)絡(luò)輿情主題,檢測、跟蹤已有輿情主題的相關(guān)內(nèi)容;?
d.最后,輿情信息分析模塊把輿情信息經(jīng)過步驟c挖掘的數(shù)據(jù)進(jìn)行OLAP多維統(tǒng)計分析,分析輿情主題內(nèi)容關(guān)注度、輿情主題情感傾向等輿情評測指標(biāo)。?
2.根據(jù)權(quán)利要求1所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,在步驟a中,所述輿情信息采集模塊,是對網(wǎng)絡(luò)輿情信息源進(jìn)行采集,不僅要完成網(wǎng)頁的爬取,而且要將網(wǎng)頁內(nèi)容進(jìn)行格式化處理,提取輿情的主題和內(nèi)容,所得數(shù)據(jù)存入txt格式或html格式文件,并存儲到輿情信息數(shù)據(jù)庫;網(wǎng)絡(luò)輿情信息采集模塊采用分時訪問、定時更換IP地址和模擬瀏覽器進(jìn)行單點登錄三種技術(shù)結(jié)合進(jìn)行防屏蔽。?
3.根據(jù)權(quán)利要求2所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,所述輿情信息采集模塊執(zhí)行的具體步驟為,從預(yù)先定義的主題相關(guān)網(wǎng)頁的URL開始,獲取網(wǎng)頁中的文本信息,并從當(dāng)前網(wǎng)頁中抽取新的URL放入隊列中,直到滿足條件的輿情信息采集完畢,URL隊列為空為止;將采集到的網(wǎng)頁文本信息按照字段分類存儲到輿情信息數(shù)據(jù)庫中,提供輿情信息萃取模塊調(diào)用。?
4.根據(jù)權(quán)利要求1所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,在步驟b中,所述輿情信息萃取模塊,是清除網(wǎng)頁中的無關(guān)內(nèi)容,提取對輿情分析有用的正文部分的元信息,對文本進(jìn)行重構(gòu),將具有主題代表性的信息聚集在一起;所述輿情信息預(yù)處理模塊,是對采集的輿情信息源經(jīng)過所述輿情信息萃取模塊萃取后,進(jìn)行中文分詞處理、過濾停用詞、命名實體識別、詞性標(biāo)注、語法解析和特征詞提取,建立正序索引和倒排索引;建立文本特征語義網(wǎng)絡(luò)圖,以文本中包含的實體E作為圖的節(jié)點,兩個實體之間的語義關(guān)系作為圖的有向邊,實體之間的語義關(guān)系結(jié)合詞頻信息作為節(jié)點的權(quán)重,有向邊的權(quán)重表示實體關(guān)系在文本中的重要程度,所述實體E包括事物實體NE、事件實體VE、事件關(guān)系實體RE;統(tǒng)計文本的詞頻和文本頻率信息,然后進(jìn)行特征詞抽取,選取體現(xiàn)文本特征的詞表示該文本。?
5.根據(jù)權(quán)利要求4所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,在步驟c中,所述輿情信息挖掘模塊,是在對文本集進(jìn)行預(yù)處理,包括中文分詞處理、停用詞過濾和結(jié)構(gòu)化標(biāo)簽信息分析后,將信息萃取模塊生成的文本數(shù)據(jù)集,根據(jù)文本特征語義網(wǎng)絡(luò)圖構(gòu)建的文本語義特征描述結(jié)構(gòu),利用相似度評價方法計算文本之間的語義相似度,構(gòu)建相似度矩陣,采用基于語義?相似度的改進(jìn)文本聚類分析方法生成聚類結(jié)果;聚類分析結(jié)果生成類別描述信息,篩選出聚類分析結(jié)果中包含的文本信息;利用基于特征統(tǒng)計的TFIDF詞頻特征計算方法統(tǒng)計類別特征,獲取候選類別特征詞,選擇名詞作為候選類別特征詞,按照候選特征詞權(quán)重排序,以權(quán)重值確定候選特征詞作為類別關(guān)鍵詞,利用類別關(guān)鍵詞之間的語義關(guān)系,形成分類結(jié)果;將挖掘結(jié)果構(gòu)建知識庫。?
6.根據(jù)權(quán)利要求4或5所述的基于文本語義相關(guān)的網(wǎng)絡(luò)輿情信息分析方法,其特征是,文本特征語義網(wǎng)絡(luò)圖是利用實體及其語義關(guān)系來表達(dá)輿情信息的有向圖,通過網(wǎng)絡(luò)節(jié)點表示的詞語合并,節(jié)點權(quán)值相加;再合并有向邊,有向邊權(quán)值相加,構(gòu)建文本特征語義網(wǎng)絡(luò)圖,描述文本中的語義信息和主題特征。?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于常州大學(xué),未經(jīng)常州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310482522.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





