[發明專利]適用于大數據分析互聯網數據抓取方法在審
| 申請號: | 202010212831.0 | 申請日: | 2020-03-24 |
| 公開(公告)號: | CN111460253A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 相輝;張永力;蘇睿清;張弘媛;蔡鵬飛;張靜;盧焱;楊青卓;李昊蘭 | 申請(專利權)人: | 國家電網有限公司;國網河北省電力有限公司物資分公司;國網河北招標有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/953 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 符繼超 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 適用于 數據 分析 互聯網 抓取 方法 | ||
1.適用于大數據分析互聯網數據抓取方法,其特征在于,包括以下步驟:
S1,數據獲取終端產生應用數據,數據獲取終端將各種應用軟件平臺使用后和預覽網站后產生的數據傳送到對應廠商的服務器和云端數據庫內,或者是保存在第三方云端數據庫內;
S2,服務器和云端數據庫內保存的應用數據會進行甄別分析,數據甄別分析會將數據與通用信息庫內儲存的信息進行對比,作為第一步程序篩選;
S3,機選后產生三種判斷結果,第一種是與通用信息庫數據對比后無疑義的信息會直接通過平臺和網站反饋給客戶,第二種就是存在疑義的信息則進入人工篩選,第三種則是明顯不符合相關法規和標準的信息,則對其發出相應的警告或直接報警。
2.根據權利要求1所述的適用于大數據分析互聯網數據抓取方法,其特征在于,所述數據獲取終端包括物聯網終端、計算機終端和手持終端,物聯網終端在使用時產生位置信息、狀態信息和設備信息,計算機終端在使用時產生軟件平臺信息和IP地址信息,而手持終端在使用時則產生軟件平臺信息、位置信息、狀態信息和IP地址信息。
3.根據權利要求1所述的適用于大數據分析互聯網數據抓取方法,其特征在于,所述通用信息庫包括假冒詐騙信息庫、危害言論信息庫和違禁圖像信息庫,所述通用信息庫采用計算機聯網,對世面上出現的信息進行及時更新添加。
4.根據權利要求1所述的適用于大數據分析互聯網數據抓取方法,其特征在于,所述程序篩選包括關鍵字檢索和敏感圖像檢索兩大類。
5.根據權利要求1所述的適用于大數據分析互聯網數據抓取方法,其特征在于,所述數據獲取終端采用頁面解析器、爬行策略搜索技術、主體爬蟲技術、鏈接相關度估算技術、內容相關度計算技術、動態Web頁面獲取技術、動態頁面的分類技術、微博信息內容獲取技術和DeepWeb數據獲取技術進行數據分析檢索。
6.根據權利要求1所述的適用于大數據分析互聯網數據抓取方法,其特征在于,所述數據獲取終端具有明確的區分,對數據的來源進行分類,確定目標數據和根源數據,其中目標數據來源個體客戶,而根源數據則來源于企業客戶,在數據反饋時,將個體客戶的數據反饋給企業客戶。
7.根據權利要求1所述的適用于大數據分析互聯網數據抓取方法,其特征在于,所述人工篩選時,由專業經過培訓的平臺官方工作人員對具有疑義的信息進行預覽,預覽判斷無疑義的信息則直接反饋給客戶,如果判斷不符合相關法規和標準的信息,則對其發出相應的警告或直接報警。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網有限公司;國網河北省電力有限公司物資分公司;國網河北招標有限公司,未經國家電網有限公司;國網河北省電力有限公司物資分公司;國網河北招標有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010212831.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





