[發明專利]數據處理方法、裝置和系統、電子設備及存儲介質在審
| 申請號: | 202210582055.2 | 申請日: | 2022-05-26 |
| 公開(公告)號: | CN114925125A | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 羅志權 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/2455;G06F16/22 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 廖慧賢 |
| 地址: | 518000 廣東省深圳市福田區福田街道益田路5033號平安*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 系統 電子設備 存儲 介質 | ||
本申請提供了一種數據處理方法、裝置和系統、電子設備及存儲介質,屬于人工智能技術領域。方法包括:從預設數據庫中讀取原始數據集和索引信息;對原始數據集進行預處理得到初步數據集;初步數據集包括M條初步子數據,索引信息包括N個主鍵,每一主鍵用于標識一條初步子數據,N小于或者等于M;通過預設的唯一標識對每一初步子數據進行標記處理得到目標數據,每一目標數據包括一條目標子數據和對應的唯一標識;根據主鍵將目標數據寫入目標數據庫;根據輸入順序將唯一標識寫入預設的消息隊列;將消息隊列的唯一標識發送提供給K個消費端,以使消費端根據唯一標識從目標數據庫獲取目標數據,K小于或者等于M。本申請能夠提高數據處理的效率。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種數據處理方法、裝置和系統、電子設備及存儲介質。
背景技術
目前,在數據處理過程中,生產端常常會將待處理的數據多次寫入到消息隊列中,這一情況往往會使得某些數據被重復提取,從而導致同一數據被重復處理,影響數據處理的效率,因此,如何提高數據處理的效率,成為了亟待解決的技術問題。
發明內容
本申請實施例的主要目的在于提出一種數據處理方法、裝置和系統、電子設備及存儲介質,旨在提高數據處理的效率。
為實現上述目的,本申請實施例的第一方面提出了一種數據處理方法,所述方法包括:
從預設數據庫中讀取原始數據集和索引信息;
對所述原始數據集進行預處理,得到初步數據集;其中,所述初步數據集包括M條初步子數據,所述索引信息包括N個主鍵,每一主鍵用于標識一條初步子數據,N小于或者等于M;
通過預設的唯一標識對每一初步子數據進行標記處理,得到目標數據,其中,每一所述目標數據包括一條目標子數據和對應的唯一標識;
根據所述主鍵將所述目標數據寫入目標數據庫;
根據預設的輸入順序將所述唯一標識寫入預設的消息隊列;
根據所述消息隊列的輸出順序將所述消息隊列的所述唯一標識提供給K個消費端,以使每一所述消費端獲取所述唯一標識,并根據所述唯一標識從所述目標數據庫獲取所述目標數據,K小于或者等于M。
在一些實施例,所述通過預設的唯一標識對每一初步子數據進行標記處理,得到目標數據的步驟,包括:
獲取M個所述唯一標識,其中,所述唯一標識為字符串;
對所述唯一標識進行排序處理,得到第一標識序列;
根據所述第一標識序列將所述唯一標識寫入每一所述初步子數據對應的預設標簽框中,得到所述目標數據。
在一些實施例,所述根據所述主鍵將所述目標數據寫入目標數據庫的步驟,包括:
對每一所述主鍵進行關鍵字提取,得到每一所述初步子數據的索引關鍵字;
根據所述索引關鍵字對每一所述目標數據進行位置識別,得到每一所述目標子數據的行特征和列特征,其中,所述目標子數據來源于所述初步子數據;
根據所述行特征和所述列特征將對應的每一所述目標數據寫入所述目標數據庫。
在一些實施例中,所述根據預設的輸入順序將所述唯一標識寫入預設的消息隊列的步驟,包括:
獲取所述輸入順序,其中,所述輸入順序根據所述唯一標識的字符長度確定;
根據所述輸入順序對所述唯一標識進行排序處理,得到第二標識序列;
根據所述第二標識序列將所述唯一標識寫入所述消息隊列。
在一些實施例,所述對所述原始數據集進行預處理,得到初步數據集的步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210582055.2/2.html,轉載請聲明來源鉆瓜專利網。





