[發明專利]一種互聯網輿情數據的獲取方法及系統在審
| 申請號: | 201610157139.6 | 申請日: | 2016-03-18 |
| 公開(公告)號: | CN105677921A | 公開(公告)日: | 2016-06-15 |
| 發明(設計)人: | 董啟文 | 申請(專利權)人: | 上海珍島信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 200083 上海市虹*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 輿情 數據 獲取 方法 系統 | ||
1.一種互聯網輿情數據的獲取方法,其特征在于,包括:
利用爬蟲技術,確定輿情相關度大于預設值的URL隊列;
對所述URL隊列中的每一URL地址進行解析,得到與每一URL地址對 應的頁面信息;
利用Lucene技術,為每一URL地址對應的頁面信息創建與輿情索引關 鍵詞信息對應的索引文件。
2.根據權利要求1所述的獲取方法,其特征在于,所述利用爬蟲技術, 確定輿情相關度大于預設值的URL隊列,包括:
確定與目標主題的輿情相關度大于預設值的種子URL地址,并將所述種 子URL地址存入所述URL隊列;
獲取所述URL隊列中的每個種子URL地址的源代碼,并提取每個源代 碼中的所有URL地址,形成URL地址集,并將所述URL地址集存入所述 URL隊列。
3.根據權利要求2所述的獲取方法,其特征在于,將所述URL地址集 存入所述URL隊列之前,還包括:
判斷所述URL地址集中的每個URL地址是否符合預定網頁提取規則;
若符合,則保留;若不符合,則從所述URL地址集中刪除。
4.根據權利要求1所述的獲取方法,其特征在于,所述利用Lucene技 術,為每一URL地址對應的頁面信息創建與輿情索引關鍵詞信息對應的索引 文件,包括:
從每個URL地址對應的頁面信息中提取與預設輿情參數相對應的輿情索 引關鍵詞信息;其中,所述預設輿情參數至少包括:標題、發布時間、發布 者、正文等;
將所述輿情索引關鍵詞信息整理成規范的結構化數據保存至本地數據 庫;
通過Lucene技術,為每個URL地址對應輿情索引關鍵詞信息創建索引 文件。
5.根據權利要求1-4中任意一項所述的獲取方法,其特征在于,所述為 每一URL地址對應的頁面信息創建與輿情索引關鍵詞信息對應的索引文件之 后,還包括:
接收用戶發送的索引請求;
利用Lucene技術,解析所述索引請求中的關鍵詞,查找與所述關鍵詞相 對應的索引文件,并將查找到的索引文件所對應的URL地址返回給用戶。
6.一種互聯網輿情數據的獲取系統,其特征在于,包括:
URL隊列確定模塊,用于利用爬蟲技術,確定輿情相關度大于預設值的 URL隊列;
頁面信息解析模塊,用于對所述URL隊列中的每一URL地址進行解析, 得到與每一URL地址對應的頁面信息;
索引文件創建模塊,用于利用Lucene技術,為每一URL地址對應的頁 面信息創建與輿情索引關鍵詞信息對應的索引文件。
7.根據權利要求6所述的獲取系統,其特征在于,所述URL隊列確定 模塊,包括:
種子URL地址確定單元,用于確定與目標主題的輿情相關度大于預設值 的種子URL地址,并將所述種子URL地址存入所述URL隊列;
URL地址集提取單元,用于獲取所述URL隊列中的每個種子URL地址 的源代碼,并提取每個源代碼中的所有URL地址,形成URL地址集;
URL地址集添加單元,用于將所述URL地址集存入所述URL隊列。
8.根據權利要求7所述的獲取系統,其特征在于,所述URL隊列確定 模塊,還包括:
判斷單元,用于判斷所述URL地址集中的每個URL地址是否符合預定 網頁提取規則;
若符合,則保留;若不符合,則從所述URL地址集中刪除。
9.根據權利要求6所述的獲取系統,其特征在于,所述索引文件創建模 塊,包括:
輿情索引關鍵詞信息提取單元,用于從每個URL地址對應的頁面信息中 提取與預設輿情參數相對應的輿情索引關鍵詞信息;其中,所述預設輿情參 數至少包括:標題、發布時間、發布者、正文等;
保存單元,用于將所述輿情索引關鍵詞信息整理成規范的結構化數據保 存至本地數據庫;
索引文件創建單元,用于通過Lucene技術,為每個URL地址對應輿情 索引關鍵詞信息創建索引文件。
10.根據權利要求6-9中任意一項所述的獲取系統,其特征在于,所述獲 取系統還包括:
接收模塊,用于接收用戶發送的索引請求;
解析模塊,用于利用Lucene技術,解析所述索引請求中的關鍵詞,查找 與所述關鍵詞相對應的索引文件,并將查找到的索引文件所對應的URL地址 返回給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海珍島信息技術有限公司,未經上海珍島信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610157139.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種快速開方集成電路
- 下一篇:智能推薦方法及系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





