[發明專利]數據抽取方法、裝置、計算機設備和存儲介質有效
| 申請號: | 201910634368.6 | 申請日: | 2019-07-15 |
| 公開(公告)號: | CN110515974B | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 張國銳;戴勇 | 申請(專利權)人: | 金蝶軟件(中國)有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/9535 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 陳小娜 |
| 地址: | 518000 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 抽取 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種數據抽取方法,所述方法包括:
獲取攜帶有待抽取數據標識的數據抽取任務;
根據所述數據抽取任務獲取與所述待抽取數據標識對應的待抽取數據;
從所述待抽取數據中分頁抽取中間數據,所述中間數據中包括錯誤標識數據;所述錯誤標識數據為抽取出的所述中間數據中存在錯誤的數據;
統計所述錯誤標識數據所對應的多種特征信息;
針對各特征信息,從所述中間數據中讀取滿足所述特征信息的部分中間數據,基于所述部分中間數據中錯誤標識數據與所述部分中間數據的比值,得到所述特征信息對應的數據錯誤率,將所述數據錯誤率大于第一閾值的特征信息標記為目標特征;
根據所述目標特征生成抽取條件;
根據所述抽取條件從所述待抽取數據中進行抽取,得到符合所述抽取條件的目標數據。
2.根據權利要求1所述的方法,其特征在于,所述數據抽取任務中還攜帶了所述中間數據對應的配置信息,所述配置信息中包括數量占比;所述從所述待抽取數據中分頁抽取中間數據包括:
獲取內存資源信息,根據所述內存資源信息確定數據容量條件;
從所述待抽取數據中提取滿足所述數據容量條件的原始數據;
基于過濾條件對所述原始數據進行過濾,得到過濾后的數據;
從所述過濾后的數據中按照所述數量占比進行隨機抽取,得到中間數據;
重復執行所述從所述待抽取數據中抽取滿足所述數據容量條件的原始數據的步驟,直到遍歷所有所述待抽取數據。
3.根據權利要求2所述的方法,其特征在于,所述配置信息中還包括屬性信息;所述根據所述內存資源信息確定數據容量條件包括:
根據所述屬性信息確定每個屬性對應的數據的內存占用空間;
統計所述配置信息中所述中間數據包括的所有屬性對應的數據的內存占用空間之和,得到所述中間數據對應的內存占用空間;
計算所述內存資源信息中的內存資源空間與所述中間數據對應的內存占用空間的比值,生成數據容量條件。
4.根據權利要求1所述的方法,其特征在于,所述根據所述目標特征生成抽取條件包括:
將不同特征類型的目標特征進行組合,得到多個組合條件;
根據所述組合條件從所述中間數據中提取對應的測試數據;
利用所述測試數據計算在所述中間數據中所述組合條件對應的數據錯誤率;
將所述組合條件對應的數據錯誤率大于第二閾值且包含的所述目標特征最多的組合條件標記為抽取條件。
5.根據權利要求1所述的方法,其特征在于,在所述根據所述抽取條件從所述待抽取數據中進行抽取,得到符合所述抽取條件的目標數據的步驟之后,所述方法還包括:
將所述目標數據對應的數據量與所述中間數據對應的數據量進行比對;
當所述目標數據對應的數據量大于所述中間數據對應的數據量時,則從所述目標數據中隨機抽取所述中間數據對應數據量的目標數據。
6.一種數據抽取裝置,其特征在于,所述裝置包括:
任務獲取模塊,用于獲取攜帶有待抽取數據標識的數據抽取任務;
數據獲取模塊,用于根據所述數據抽取任務獲取與所述待抽取數據標識對應的待抽取數據;
數據抽取模塊,用于從所述待抽取數據中分頁抽取中間數據,所述中間數據中包括錯誤標識數據;所述錯誤標識數據為抽取出的所述中間數據中存在錯誤的數據;
特征信息統計模塊,用于統計所述錯誤標識數據所對應的多種特征信息;
目標特征標記模塊,用于針對各特征信息,從所述中間數據中讀取滿足所述特征信息的部分中間數據,基于所述部分中間數據中錯誤標識數據與所述部分中間數據的比值,得到所述特征信息對應的數據錯誤率,將所述數據錯誤率大于第一閾值的特征信息標記為目標特征;
抽取條件生成模塊,用于根據所述目標特征生成抽取條件;
所述數據抽取模塊還用于根據所述抽取條件從所述待抽取數據中進行抽取,得到符合所述抽取條件的目標數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于金蝶軟件(中國)有限公司,未經金蝶軟件(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910634368.6/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





