[發明專利]數據抽取方法及裝置有效
| 申請號: | 201811628810.6 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109710679B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 李仁君 | 申請(專利權)人: | 北京曠視科技有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/2455 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 李強 |
| 地址: | 100000 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 抽取 方法 裝置 | ||
本發深度數據處理領域,提供一種數據抽取方法及裝置。其中,數據抽取方法包括:獲取待抽取數據的總體描述信息;根據總體描述信息將待抽取數據劃分為多個分片,每個分片對應有分片描述信息;按照分片進行數據抽取,每次抽取執行如下步驟:根據分片描述信息從源系統中獲取對應的分片,并將分片緩存至內存中;將緩存的分片存儲至目標系統中。上述方法在抽取數據時,待抽取數據并未落地存儲,待抽取數據的分片是在內存中緩存的,因此數據抽取過程的執行效率得到顯著提高。同時,由于數據抽取是按照分片進行的,不必將全部的待抽取數據都緩存到內存中,因此該方法對于待抽取數據的量較大,而內存空間有限的情況也能夠適用。
技術領域
本發明涉及數據處理技術領域,具體而言,涉及一種數據抽取方法及裝置。
背景技術
數據抽取是指將數據從源系統中導出,并導入到目標系統中的過程。在常見的應用場景中,數據抽取通過一服務器完成,服務器上部署有源系統或目標系統。然而,在現有技術中,源系統導出的數據需要先在服務器上落地存儲,然后再導出到目標系統中去,導致數據抽取過程的效率低下。
發明內容
有鑒于此,本發明實施例提供一種數據抽取方法及裝置,對待抽取數據進行分片后,按照分片抽取數據,以提高數據抽取過程的效率。
為實現上述目的,本發明提供如下技術方案:
第一方面,本發明實施例提供一種數據抽取方法,包括:
獲取待抽取數據的總體描述信息,待抽取數據保存在源系統中;
根據總體描述信息將待抽取數據劃分為多個分片,每個分片對應有分片描述信息;
按照分片進行數據抽取,每次抽取執行如下步驟:
根據分片描述信息從源系統中獲取對應的分片,并將分片緩存至內存中;
將緩存的分片存儲至目標系統中。
上述方法在抽取數據時,待抽取數據并未落地存儲,待抽取數據的分片是在內存中緩存的,因此數據抽取過程的執行效率得到顯著提高。同時,由于數據抽取是按照分片進行的,每個分片只是待抽取數據的一部分,因此不必將全部的待抽取數據都緩存到內存中,特別是對于待抽取數據的量較大,而內存空間有限的情況,該方法同樣能夠支持數據的不落地抽取,其適用范圍較廣,實用價值較高。
在一些實施例中,將緩存的分片存儲至目標系統中,包括:
對緩存的分片中的數據進行轉換和/或過濾,并將處理后的分片存儲至目標系統中。
其中,轉換是指將數據從源系統中的存儲格式轉換為目標系統中的存儲格式,過濾是指目標系統并不需要源系統中取出的全部數據,只需要其中的一部分數據,因此需要按照一定的規則排除掉其中的部分數據,轉換以及過濾的步驟可以根據數據抽取任務的實際需求選擇是否需要執行。
在一些實施例中,根據總體描述信息將待抽取數據劃分為多個分片之后,方法還包括:
將每個分片的分片描述信息緩存至第一隊列;
根據分片描述信息從源系統中獲取對應的分片,并將獲取的分片緩存至內存中,包括:
從第一隊列中取出分片描述信息,根據分片描述信息從源系統中獲取對應的分片,并將獲取的分片緩存至內存中。
在這些實施例中,先將分片描述信息緩存至第一隊列,在能夠處理分片時主動從第一隊列中取出分片描述信息并執行分片中數據的抽取步驟,使得數據的抽取與實際的處理能力是適配的,隊列的數據結構保證先放入的分片描述信息對應的分片會先進行抽取。在一些實現方式中,第一隊列還可以采用線程安全的實現方式,從而正確處理多個執行者同時向第一隊列索取分片描述信息的情況。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京曠視科技有限公司,未經北京曠視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811628810.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





