[發(fā)明專利]基于樣本數據的數據探測和擴充方法及裝置有效
| 申請?zhí)枺?/td> | 201611264829.8 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106844553B | 公開(公告)日: | 2020-05-01 |
| 發(fā)明(設計)人: | 湯奇峰;李炳輝 | 申請(專利權)人: | 晶贊廣告(上海)有限公司 |
| 主分類號: | G06F16/23 | 分類號: | G06F16/23;G06F16/9535;G06F16/955 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張振軍;吳敏 |
| 地址: | 200072 上海市閘北區(qū)靈*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 樣本 數據 探測 擴充 方法 裝置 | ||
一種基于樣本數據的數據探測和擴充方法及裝置,所述方法包括如下步驟:基于數據庫中的至少一條數據確定所述樣本數據,所述數據庫存儲有從海量數據中探測獲得的多條數據;基于所述樣本數據在所述海量數據中查找,以獲得所述海量數據中與所述樣本數據相匹配的匹配數據;對所述匹配數據進行處理以獲得匹配規(guī)則,并更新指紋庫,所述指紋庫存儲有歷史上獲得的匹配規(guī)則;基于更新后的指紋庫在所述海量數據中進行匹配提取,以獲得所述海量數據中與所述更新后的指紋庫中的匹配規(guī)則相匹配的數據,并將匹配獲得的數據擴充至所述數據庫。通過本發(fā)明提供的技術方案能夠更加準確、高效的對海量數據進行全局、系統的分析和處理。
技術領域
本發(fā)明涉及互聯網技術領域,具體地涉及一種基于樣本數據的數據探測和擴充方法及裝置。
背景技術
隨著互聯網技術的高速發(fā)展,中國互聯網網站和上網人數均飛速攀升,隨著網民的飛速增長,以及互聯網資源越來越豐富,互聯網上產生的訪問日志數據也快速膨脹形成海量數據,使得如何從海量數據中探測發(fā)現并擴充所需的數據信息成為當前信息處理方工作的重中之重。
目前,從海量數據中發(fā)現和擴充所需數據的方法主要集中在以下兩種:其一,是人工檢查數據方式,依靠人工對互聯網上各網站或者應用程序(Application,簡稱APP,例如,裝載在手機中的應用軟件)的用戶訪問統一資源定位符(Uniform Resource Locator,簡稱URL)進行分析和總結,得到一系列的匹配規(guī)則,然后基于這些匹配規(guī)則再到互聯網的海量數據資源中再進行匹配,從而提取擴充獲得所需的數據。其二,則是應用程序編程接口(Application Programming Interface,簡稱API)查詢方式,這種方法是通過API提供方的文檔說明,根據需要調用對方的接口從而獲取所需的數據。
這兩種方法雖然能在一定程度上滿足用戶希望從海量數據中發(fā)現和擴充特定類型的數據,但是,這兩種方法各自存在著無法回避的缺陷。對于人工檢查數據方式而言,在實際操作中需要大量的人力去手動進行相關的分析和統計,探測和擴充效率低;API查詢方式則依賴于API提供方提供的文檔說明,具有不確定性。
另一方面,包括上述兩種方式在內的現有數據發(fā)現和擴充方法,最終獲得的都是某些特定網站上的數據。但是由于互聯網中網站規(guī)模的飛速擴張,并且許多網站和APP對URL的構建方式沒有制定統一的標準和規(guī)律,因此通過現有方法獲取的數據只是海量數據中的一小部分,不利于用戶對海量數據進行全局、系統的分析和處理,影響了用戶所探測和擴充獲得的數據的準確度。
發(fā)明內容
本發(fā)明解決的技術問題是現有技術無法以更為準確、高效的方式對海量數據進行全局、系統的分析和處理。
為解決上述技術問題,本發(fā)明實施例提供一種基于樣本數據的數據探測和擴充方法,包括如下步驟:基于數據庫中的至少一條數據確定所述樣本數據,所述數據庫存儲有從海量數據中探測獲得的多條數據;基于所述樣本數據在所述海量數據中查找,以獲得所述海量數據中與所述樣本數據相匹配的匹配數據;對所述匹配數據進行處理以獲得匹配規(guī)則,并更新指紋庫,所述指紋庫存儲有歷史上獲得的匹配規(guī)則;基于更新后的指紋庫在所述海量數據中進行匹配提取,以獲得所述海量數據中與所述更新后的指紋庫中的匹配規(guī)則相匹配的數據,并將匹配獲得的數據擴充至所述數據庫。
可選的,所述基于數據庫中的至少一條數據確定所述樣本數據,包括如下步驟:從所述數據庫中選擇預設數量的數據,并將所述預設數量的數據的特征信息作為所述樣本數據。
可選的,所述特征信息包括:所述預設數量的數據的特征標識碼;或者根據所述預設數量的數據確定的正則表達式。
可選的,基于所述樣本數據在所述海量數據中查找,以獲得所述海量數據中與所述樣本數據相匹配的匹配數據,包括如下步驟:在所述海量數據中查找與所述樣本數據具有相同特征信息的數據,并將所述具有相同特征信息的數據作為所述匹配數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于晶贊廣告(上海)有限公司,未經晶贊廣告(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611264829.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:尿素熱解SCR脫硝裝置
- 下一篇:一種尿素熱解SCR脫硝裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發(fā)送方法、數據發(fā)送系統、數據發(fā)送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發(fā)送和數據接收設備、數據發(fā)送和數據接收方法
- 數據發(fā)送裝置、數據接收裝置、數據收發(fā)系統、數據發(fā)送方法、數據接收方法和數據收發(fā)方法
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置





