[發明專利]數據抽取方法、裝置、計算機設備和存儲介質有效
| 申請號: | 201910634368.6 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110515974B | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 張國銳;戴勇 | 申請(專利權)人: | 金蝶軟件(中國)有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/9535 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 陳小娜 |
| 地址: | 518000 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 抽取 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種數據抽取方法、裝置、計算機設備和存儲介質。所述方法包括:獲取攜帶有待抽取數據標識的數據抽取任務;根據所述數據抽取任務獲取與所述待抽取數據標識對應的待抽取數據;從所述待抽取數據中分頁抽取中間數據,所述中間數據中包括錯誤標識數據;統計所述錯誤標識數據所對應的多種特征信息;計算在所述中間數據中所述特征信息分別對應的數據錯誤率,將所述數據錯誤率大于第一閾值的特征信息標記為目標特征;根據所述目標特征生成抽取條件;根據所述抽取條件從所述待抽取數據中進行抽取,得到符合所述抽取條件的目標數據。采用本方法能夠提高數據抽取的準確性。
技術領域
本申請涉及計算機技術領域,特別是涉及一種數據抽取方法、裝置、計算機設備和存儲介質。
背景技術
隨著計算機技術的發展,計算機可以處理大量的數據。為了保證得到的數據的正確性,用戶通常需要對得到的數據進行檢查。由于數據的海量增加,依次檢查全部的數據非常耗費時間成本和工作資源。因此,出現了對數據的抽檢方式。通過對抽取出的部分數據進行檢查,以此來評估全部數據的整體數據質量。
在傳統方式中,抽取數據的方式通常是針對全部的數據一次性隨機抽取出部分數據用于檢查。但是,這種方式抽取出的數據只是整體數據中的一部分,隨機抽取得到的數據存在偶然性,并不能夠準確的反映整體數據的數據質量。因此,為了抽取出的數據能夠準確的反映整體數據的數據質量,如何準確的抽取數據成為目前需要解決的技術問題。
發明內容
基于此,有必要針對上述數據抽取不準確的技術問題,提供一種能夠提高數據抽取準確性的數據抽取方法、裝置、計算機設備和存儲介質。
一種數據抽取方法,所述方法包括:
獲取攜帶有待抽取數據標識的數據抽取任務;
根據所述數據抽取任務獲取與所述待抽取數據標識對應的待抽取數據;
從所述待抽取數據中分頁抽取中間數據,所述中間數據中包括錯誤標識數據;
統計所述錯誤標識數據所對應的多種特征信息;
計算在所述中間數據中所述特征信息分別對應的數據錯誤率,將所述數據錯誤率大于第一閾值的特征信息標記為目標特征;
根據所述目標特征生成抽取條件;
根據所述抽取條件從所述待抽取數據中進行抽取,得到符合所述抽取條件的目標數據。
在其中一個實施例中,所述數據抽取任務中還攜帶了所述中間數據對應的配置信息,所述配置信息中包括數量占比;所述從所述待抽取數據中分頁抽取中間數據包括:
獲取內存資源信息,根據所述內存資源信息確定數據容量條件;
從所述待抽取數據中提取滿足所述數據容量條件的原始數據;
基于過濾條件對所述原始數據進行過濾,得到過濾后的數據;
從所述過濾后的數據中按照所述數量占比進行隨機抽取,得到中間數據;
重復執行所述從所述待抽取數據中抽取滿足所述數據容量條件的原始數據的步驟,直到遍歷所有所述待抽取數據。
在其中一個實施例中,所述配置信息中還包括屬性信息;所述根據所述內存資源信息確定數據容量條件包括:
根據所述屬性信息確定每個屬性對應的數據的內存占用空間;
統計所述配置信息中所述中間數據包括的所有屬性對應的數據的內存占用空間之和,得到所述中間數據對應的內存占用空間;
計算所述內存資源信息中的內存資源空間與所述中間數據對應的內存占用空間的比值,生成數據容量條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金蝶軟件(中國)有限公司,未經金蝶軟件(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910634368.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





