[發(fā)明專利]一種網(wǎng)絡(luò)輿情事件多維信息提取的方法及裝置有效
| 申請?zhí)枺?/td> | 201310207128.0 | 申請日: | 2013-05-29 |
| 公開(公告)號: | CN103309960B | 公開(公告)日: | 2017-06-06 |
| 發(fā)明(設(shè)計)人: | 肖贊;羅峰;黃蘇支;李娜 | 申請(專利權(quán))人: | 億贊普(北京)科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司11319 | 代理人: | 趙娟 |
| 地址: | 100081 北京市海淀區(qū)南大街東北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 輿情 事件 多維 信息 提取 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域,特別是涉及一種網(wǎng)絡(luò)輿情事件多維信息提取的方法及裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)的不斷普及,越來越多的人們通過互聯(lián)網(wǎng)來表達(dá)自己的觀點、發(fā)表和交流對熱點事件的看法等,使得互聯(lián)網(wǎng)日漸成為輿情產(chǎn)生和傳播主要場所之一。由于網(wǎng)絡(luò)輿情傳播簡單、身份隱藏,具有隱蔽性和突發(fā)性,并且社會影響力大,使得對網(wǎng)絡(luò)輿情的研究逐步受到各國政府的高度關(guān)注。
因此,本領(lǐng)域技術(shù)人員迫切需要解決的問題之一在于,提出一種網(wǎng)絡(luò)輿情事件多維信息提取的方法及裝置,用以分析輿論事件,提高輿論事件分析的準(zhǔn)確度。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種網(wǎng)絡(luò)輿情事件多維信息提取的方法及裝置,用以分析輿論事件,提高輿論事件分析的準(zhǔn)確度。
為了解決上述問題,本發(fā)明公開了一種網(wǎng)絡(luò)輿情事件多維信息提取的方法,包括:
基于用戶搜索行為從搜索日志中提取種子網(wǎng)頁,采用所述種子網(wǎng)頁構(gòu)建網(wǎng)絡(luò)輿情事件初始的主題;
依據(jù)所述主題按照預(yù)設(shè)時間段分時獲取特征網(wǎng)頁;
獲取在上一預(yù)設(shè)時間段及在當(dāng)前預(yù)設(shè)時間段相應(yīng)獲取的特征網(wǎng)頁的文本屬性信息;
依據(jù)所述在上一預(yù)設(shè)時間段的文本屬性信息,獲取上一預(yù)設(shè)時間段用戶關(guān)注度的分析數(shù)據(jù)、媒體關(guān)注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù);
依據(jù)所述在當(dāng)前預(yù)設(shè)時間段的文本屬性信息,獲取當(dāng)前預(yù)設(shè)時間段用戶關(guān)注度的分析數(shù)據(jù)、媒體關(guān)注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù);
分別對比上一預(yù)設(shè)時間段與當(dāng)前時間段用戶關(guān)注度的分析數(shù)據(jù),媒體關(guān)注度的分析數(shù)據(jù)以及用戶態(tài)度的分析數(shù)據(jù),獲得網(wǎng)絡(luò)輿情事件的趨勢演化信息。
優(yōu)選地,所述采用種子網(wǎng)頁構(gòu)建網(wǎng)絡(luò)輿情事件初始的主題的步驟包括:
獲取各種子網(wǎng)頁的文本屬性信息;
分別針對各種子網(wǎng)頁的文本屬性信息進(jìn)行分詞及識別命名實體;
采用詞頻-逆向文件頻率算法TF*IDF計算所述分詞及命名實體的權(quán)重;
提取權(quán)重大于預(yù)設(shè)權(quán)重閾值的分詞及命名實體作為所述各種子網(wǎng)頁對應(yīng)的特征詞;
依據(jù)所述特征詞中的命名實體生成主命名實體向量,依據(jù)所述特征詞中除命名實體外的特征詞生成主內(nèi)容向量;
依據(jù)所述主命名實體向量及主內(nèi)容向量構(gòu)建主質(zhì)心向量;其中,所述主質(zhì)心向量為網(wǎng)絡(luò)輿情事件的主題。
優(yōu)選地,所述按照預(yù)設(shè)時間段分時獲取特征網(wǎng)頁的步驟包括:
分別在預(yù)設(shè)時間段抓取指定網(wǎng)頁;所述指定網(wǎng)頁包括新聞、論壇和微博網(wǎng)頁;
計算各指定網(wǎng)頁的內(nèi)容向量和命名實體向量;
依據(jù)所述各指定網(wǎng)頁的內(nèi)容向量和命名實體向量,以及,上一預(yù)設(shè)時間的段的主內(nèi)容向量和主命名實體向量計算相似度;
若所述相似度大于預(yù)設(shè)相似度閾值,則獲取所述指定網(wǎng)頁為特征網(wǎng)頁。
優(yōu)選地,所述依據(jù)各指定網(wǎng)頁的內(nèi)容向量和命名實體向量,以及,上一預(yù)設(shè)時間的段的主內(nèi)容向量和主命名實體向量計算相似度的步驟包括:
采用余弦法依據(jù)各指定網(wǎng)頁的內(nèi)容向量與上一預(yù)設(shè)時間段的主內(nèi)容向量計算內(nèi)容向量距離;
采用余弦法依據(jù)各指定網(wǎng)頁的命名實體向量與上一預(yù)設(shè)時間段的主命名實體向量計算命名實體向量距離;
分別針對所述內(nèi)容向量距離及所述命名實體向量距離添加對應(yīng)的權(quán)重值;
依據(jù)所述內(nèi)容向量距離與其對應(yīng)添加的權(quán)重值,命名實體向量距離與其對應(yīng)添加的權(quán)重值計算相似度。
優(yōu)選地,所述方法還包括:
在各預(yù)設(shè)時間段分別采用相應(yīng)獲取的特征網(wǎng)頁對所述網(wǎng)絡(luò)輿情事件的主題進(jìn)行更新;
所述在各預(yù)設(shè)時間段分別采用相應(yīng)獲取的特征網(wǎng)頁對所述網(wǎng)絡(luò)輿情事件的主題進(jìn)行更新的步驟包括:
依據(jù)所述在各預(yù)設(shè)時間段相應(yīng)獲取的特征網(wǎng)頁計算在當(dāng)前預(yù)設(shè)時間段的質(zhì)心向量;
針對上一預(yù)設(shè)時間段的主質(zhì)心向量及所述當(dāng)前預(yù)設(shè)時間段的質(zhì)心向量添加對應(yīng)的權(quán)重值;
依據(jù)所述當(dāng)前預(yù)設(shè)時間段的質(zhì)心向量與其對應(yīng)添加的權(quán)重值,上一預(yù)設(shè)時間段的主質(zhì)心向量與其對應(yīng)添加的權(quán)重值計算當(dāng)前的主質(zhì)心向量。
本發(fā)明實施例還公開了一種網(wǎng)絡(luò)輿情事件多維信息提取的裝置,包括:
種子網(wǎng)頁提取模塊,用于基于用戶搜索行為從搜索日志中提取種子網(wǎng)頁,采用所述種子網(wǎng)頁構(gòu)建網(wǎng)絡(luò)輿情事件初始的主題;
特征網(wǎng)頁獲取模塊,用于依據(jù)所述主題按照預(yù)設(shè)時間段分時獲取特征網(wǎng)頁;
文本信息獲取模塊,用于獲取在上一預(yù)設(shè)時間段及在當(dāng)前預(yù)設(shè)時間段相應(yīng)獲取的特征網(wǎng)頁的文本屬性信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于億贊普(北京)科技有限公司,未經(jīng)億贊普(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310207128.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





