[發明專利]一種網絡輿情事件多維信息提取的方法及裝置有效
| 申請號: | 201310207128.0 | 申請日: | 2013-05-29 |
| 公開(公告)號: | CN103309960B | 公開(公告)日: | 2017-06-06 |
| 發明(設計)人: | 肖贊;羅峰;黃蘇支;李娜 | 申請(專利權)人: | 億贊普(北京)科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司11319 | 代理人: | 趙娟 |
| 地址: | 100081 北京市海淀區南大街東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 輿情 事件 多維 信息 提取 方法 裝置 | ||
1.一種網絡輿情事件多維信息提取的方法,其特征在于,包括:
基于用戶搜索行為從搜索日志中提取種子網頁,采用所述種子網頁構建網絡輿情事件初始的主題;
依據所述主題按照預設時間段分時獲取特征網頁;
獲取在上一預設時間段及在當前預設時間段相應獲取的特征網頁的文本屬性信息;
依據所述在上一預設時間段的文本屬性信息,獲取上一預設時間段用戶關注度的分析數據、媒體關注度的分析數據以及用戶態度的分析數據;
依據所述在當前預設時間段的文本屬性信息,獲取當前預設時間段用戶關注度的分析數據、媒體關注度的分析數據以及用戶態度的分析數據;
分別對比上一預設時間段與當前時間段用戶關注度的分析數據,媒體關注度的分析數據以及用戶態度的分析數據,獲得網絡輿情事件的趨勢演化信息。
2.根據權利要求1所述的方法,其特征在于,所述采用種子網頁構建網絡輿情事件初始的主題的步驟包括:
獲取各種子網頁的文本屬性信息;
分別針對各種子網頁的文本屬性信息進行分詞及識別命名實體;
采用詞頻-逆向文件頻率算法TF*IDF計算所述分詞及命名實體的權重;
提取權重大于預設權重閾值的分詞及命名實體作為所述各種子網頁對應的特征詞;
依據所述特征詞中的命名實體生成主命名實體向量,依據所述特征詞中除命名實體外的特征詞生成主內容向量;
依據所述主命名實體向量及主內容向量構建主質心向量;其中,所述主質心向量為網絡輿情事件的主題。
3.根據權利要求1或2所述的方法,其特征在于,所述按照預設時間段分時獲取特征網頁的步驟包括:
分別在預設時間段抓取指定網頁;所述指定網頁包括新聞、論壇和微 博網頁;
計算各指定網頁的內容向量和命名實體向量;
依據所述各指定網頁的內容向量和命名實體向量,以及,上一預設時間段的主內容向量和主命名實體向量計算相似度;
若所述相似度大于預設相似度閾值,則獲取所述指定網頁為特征網頁。
4.根據權利要求3所述的方法,其特征在于,所述依據各指定網頁的內容向量和命名實體向量,以及,上一預設時間段的主內容向量和主命名實體向量計算相似度的步驟包括:
采用余弦法依據各指定網頁的內容向量與上一預設時間段的主內容向量計算內容向量距離;
采用余弦法依據各指定網頁的命名實體向量與上一預設時間段的主命名實體向量計算命名實體向量距離;
分別針對所述內容向量距離及所述命名實體向量距離添加對應的權重值;
依據所述內容向量距離與其對應添加的權重值,命名實體向量距離與其對應添加的權重值計算相似度。
5.根據權利要求1或2所述的方法,其特征在于,還包括:
在各預設時間段分別采用相應獲取的特征網頁對所述網絡輿情事件的主題進行更新;
所述在各預設時間段分別采用相應獲取的特征網頁對所述網絡輿情事件的主題進行更新的步驟包括:
依據所述在各預設時間段相應獲取的特征網頁計算在當前預設時間段的質心向量;
針對上一預設時間段的主質心向量及所述當前預設時間段的質心向量添加對應的權重值;
依據所述當前預設時間段的質心向量與其對應添加的權重值,上一預設時間段的主質心向量與其對應添加的權重值計算當前的主質心向量。
6.一種網絡輿情事件多維信息提取的裝置,其特征在于,包括:
種子網頁提取模塊,用于基于用戶搜索行為從搜索日志中提取種子網頁,采用所述種子網頁構建網絡輿情事件初始的主題;
特征網頁獲取模塊,用于依據所述主題按照預設時間段分時獲取特征網頁;
文本信息獲取模塊,用于獲取在上一預設時間段及在當前預設時間段相應獲取的特征網頁的文本屬性信息;
第一分析數據獲取模塊,用于依據所述在上一預設時間段的文本屬性信息,獲取上一預設時間段用戶關注度的分析數據、媒體關注度的分析數據以及用戶態度的分析數據;
第二分析數據獲取模塊,用于依據所述在當前預設時間段的文本屬性信息,獲取當前預設時間段用戶關注度的分析數據、媒體關注度的分析數據以及用戶態度的分析數據;
對比和趨勢分析模塊,用于分別對比上一預設時間段與當前時間段用戶關注度的分析數據,媒體關注度的分析數據以及用戶態度的分析數據,獲得網絡輿情事件的趨勢演化信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于億贊普(北京)科技有限公司,未經億贊普(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310207128.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于相似性傳遞的協同過濾方法及系統
- 下一篇:網頁瀏覽方法、裝置及終端





