[發明專利]數據提取方法、裝置及系統有效
| 申請號: | 201611080168.3 | 申請日: | 2016-11-30 |
| 公開(公告)號: | CN106776901B | 公開(公告)日: | 2019-12-06 |
| 發明(設計)人: | 蔡自彬;何金良;李娟 | 申請(專利權)人: | 北京知道創宇信息技術股份有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 11396 北京思睿峰知識產權代理有限公司 | 代理人: | 謝建云;趙愛軍<國際申請>=<國際公布> |
| 地址: | 100102 北京市朝陽區阜*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 提取 方法 裝置 系統 | ||
1.一種提取來自一個或者多個數據源的數據的方法,所述一個或者多個數據源中的每個數據源包括多條數據,每條數據包括一個或者多個具有鍵-值對形式的數據項,該數據提取方法包括步驟:
對于所述一個或者多個數據源中的每個數據源,確定每個鍵對應的數據類型,生成數據類型表,所述數據類型表中存儲數據源、鍵、數據類型的關聯關系,所述數據類型為鍵對應的值的含義;
解析一條數據并提取出該條數據所包括的一個或者多個數據項,對于每個數據項:
提取構成該數據項的鍵-值對,根據該條數據的數據源從所述數據類型表中確定出所提取的鍵對應的數據類型;以及
利用該數據類型對應的數據校驗方法對所提取的鍵-值對中的值進行校驗,若校驗通過則提取成功,記錄提取的鍵-值對中的值。
2.如權利要求1所述的方法,其中,所述生成數據類型表的步驟包括:
對于所述一個或者多個數據源中的每個數據源,對數據進行采樣,以獲得第一數目條數據;
對于所述第一數目條數據中的每條數據,逐條解析數據并提取出所有的數據項;
對每個數據項中的鍵-值對中鍵對應的值,通過正則表達式和/或數據校驗方法分析其數據類型,作為該鍵對應的數據類型;
統計每個數據源中、每個鍵對應的數據類型個數以及與該數據類型對應的值個數;以及
從每個鍵所對應的數據類型中選取對應的值個數占比超過第一閾值的數據類型,確定為該數據源中該鍵對應的數據類型,并關聯存儲該數據源中該鍵與所確定的數據類型,作為數據類型表。
3.如權利要求2所述的方法,其中,所述對于所述一個或者多個數據源中的每個數據源,對數據進行采樣的步驟包括:
抽取每種數據源中前第一數目條數據;和/或
在每種數據源中隨機抽樣第一數目條數據;和/或
按時間段在每種數據源中抽取第一數目條數據。
4.如權利要求2所述的方法,其中,所述數據類型對應的值個數占比是某個鍵的某一數據類型對應的值個數占該數據源中該鍵對應的所有數據類型的值總個數的比值。
5.如權利要求4所述的方法,其中,所述利用該數據類型的數據校驗方法對所提取的鍵-值對中的值進行校驗的步驟還包括:
利用該數據類型的正則表達式對所提取的鍵-值對中的值進行校驗。
6.如權利要求1所述的方法,還包括矯正數據類型的步驟:
當滿足預設條件時,每隔第一預定時間統計每種數據源中每個鍵提取成功的個數、提取失敗的個數,計算該第一預定時間內每種數據源中每個鍵的提取成功百分比;以及
若所述提取成功百分比低于第二閾值,則產生告警信號,以觸發數據類型矯正,重新采樣統計該數據源中該鍵對應的數據類型。
7.如權利要求6所述的方法,其中,所述矯正數據類型的步驟還包括:
每隔第二預定時間對最新數據重復所述生成數據類型表的步驟,生成新的數據類型表;
根據新的數據類型表,在每個鍵所對應的數據類型中重新選取對應的值個數占比超過第一閾值的數據類型作為該數據源中該鍵對應的數據類型,以執行后續數據提取的步驟。
8.如權利要求1所述的方法,其中,所述數據類型包括:身份標識、社交賬號、地理位置信息、移動設備標識。
9.如權利要求7所述的方法,其中,所述第一預定時間為一天;所述第二預定時間為七天或一天。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京知道創宇信息技術股份有限公司,未經北京知道創宇信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611080168.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:出行方法和裝置
- 下一篇:路徑軌跡的分析方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





