[發明專利]一種數據處理方法及相關設備在審
| 申請號: | 201910728773.4 | 申請日: | 2019-08-07 |
| 公開(公告)號: | CN110427381A | 公開(公告)日: | 2019-11-08 |
| 發明(設計)人: | 王飛;胡可云;陳聯忠 | 申請(專利權)人: | 北京嘉和海森健康科技有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2458;G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構化數據 分詞 身份標識 同一用戶 數據處理 主索引 關聯保存 數據記錄 數據配置 正整數 預設 數據庫 存儲 申請 保證 | ||
本申請實施例提供了一種數據處理方法及相關設備,可以為同一身份標識的數據配置相同的主索引,既消除同一用戶多個身份標識,同時又保證同一用戶的數據記錄不會丟失。該方法包括:確定第一結構化數據,所述第一結構化數據包括N個分詞,其中,N為大于或等于1的正整數;根據所述N個分詞與第二結構化數據對應的分詞確定目標比例,所述第二結構化數據為數據庫中存儲的任意一個結構化數據;判斷所述目標比例是否大于預設值;若是,則將所述第一結構化數據關聯保存至所述第二結構化數據對應的主索引下。
技術領域
本申請涉及大數據領域,尤其涉及一種數據處理方法及相關設備。
背景技術
隨著網絡的進步,社會各界科研人員已逐步意識到數據應用的重要性,開始挖掘數據潛在的海量應用價值。
現有的用戶的數據信息多是分散的,同一用戶在不同的信息系統中的個人信息是不相同的,無法實現同一用戶的信息在各個分散信息系統間的自動關聯,甚至單個信息系統內都出現同一用戶存在多個身份標識,大量歷史數據難以應用。
如何解決消除同一用戶多個身份標識,同時又保證同一用戶的數據記錄不會丟失,是亟待解決的問題。
發明內容
本申請提供了一種數據處理方法及相關設備,可以為同一身份標識的數據配置相同的索引,既保證同一用戶只對應一個身份標識,同時又保證同一用戶的數據記錄不會丟失。
本申請實施例第一方面提供一種數據處理方法,所述方法包括:
確定第一結構化數據,所述第一結構化數據包括N個分詞,其中,N為大于或等于1的正整數;
根據所述N個分詞與第二結構化數據對應的分詞確定目標比例,所述第二結構化數據為數據庫中存儲的任意一個結構化數據;
判斷所述目標比例是否大于預設值;
若是,則將所述第一結構化數據關聯保存至所述第二結構化數據對應的主索引下。
可選地,所述根據所述N個分詞以及第二結構化數據對應的分詞確定目標比例包括:
將所述N個分詞與所述第二結構化數據對應的分詞進行對比,得到所述第一目標分詞,所述第一目標分詞為所述N個分詞中與所述第二結構化數據對應的分詞中相同的分詞;
將所述第一目標分詞與第二目標分詞進行比值計算,得到所述目標比例,所述第二目標分詞為所述第一結構化數據與所述第二結構化數據對應的分詞中字段數量多的結構化數據對應的分詞。
可選地,所述將所述N個分詞與所述第二結構化數據對應的分詞進行對比,得到所述第一目標分詞包括;
將所述N個分詞中的時間分詞轉換為第一標準時間分詞;
將所述第二結構化數據對應的分詞中的時間分詞轉換為第二標準時間分詞;
當所述第一標準時間與所述第二標準時間匹配時,將所述N個分詞中除所述第一標準時間分詞之外的分詞與所述第二結構化數據對應的分詞中除所述第二標準時間分詞之外的其他分詞進行對比,得到所述第一目標分詞。
可選地,所述確定第一結構化數據包括:
獲取所述目標對象的半結構化數據;
對所述目標對象的半結構化數據進行分詞,得到所述第一結構化數據。
可選地,所述方法還包括:
當所述目標比值小于預設值時,則在所述數據庫中為所述第一結構化數據建立新的目標主索引;
將所述第一結構化數據關聯保存至所述目標主索引。
本申請實施例第二方面提供了一種數據處理裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘉和海森健康科技有限公司,未經北京嘉和海森健康科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910728773.4/2.html,轉載請聲明來源鉆瓜專利網。





