[發明專利]集合處理方法及裝置在審
| 申請號: | 201710919176.0 | 申請日: | 2017-09-30 |
| 公開(公告)號: | CN110069529A | 公開(公告)日: | 2019-07-30 |
| 發明(設計)人: | 彭遠波 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張建;王寶筠 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 集合 標識性 元素組 刪除 元素刪除 合并 關系獲得 干擾性 矛盾 | ||
本發明公開了一種集合處理方法及裝置,可以獲得第一類標識性元素、待刪除元素和集合的第一對應關系,根據第一對應關系獲得至少一個第一元素組,對每一個所述第一元素組:從該第一元素組中選取N?1個第一類標識性元素,確定選取的第一類標識性元素對應的集合,從確定的集合中將該第一元素組中各第一類標識性元素均對應的待刪除元素刪除,獲得已處理集合。本發明可以將集合中存在的矛盾元素,即造成合并錯誤的待刪除元素刪除,避免了因為該存在干擾性的待刪除元素而進行的錯誤的集合合并,提高了集合合并結果的準確性和有效性。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種集合處理方法及裝置。
背景技術
在數據處理領域,如數據庫領域,常需要求集合的交集或并集。
當需要進行信息合并時,還需要對有交集的集合進行合并。例如:對數個由用戶信息組成的集合中有交集的集合進行合并,以發現各用戶之間的關系。例如:集合有三個,集合A為(姓名1,身份證號1,手機號1,大學1);集合B為(姓名2,身份證號2,手機號1,小學1);集合C為(姓名3,身份證號3,手機號2,小學1,大學1)。現有技術中,由于集合A、集合B、集合C彼此之間具有作為交集的元素,因此可以將它們合并。但本申請發明人研究發現:并不是所有的元素作為交集時都可以進行集合合并。例如上述舉例中的集合A和集合B,雖然這兩個集合具有作為交集的元素:手機號1,但是身份證號不同的兩個用戶的手機號一般是不同的,因此即使集合A和集合B中存在相同的手機號1,但是也不應該將這兩個集合合并。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的集合處理方法及裝置,方案如下:
一種集合處理方法,包括:
獲得待處理的多個集合,其中,所述多個集合均包括第一類標識性元素和待刪除元素,任一集合中最多包含一個所述第一類標識性元素;
根據所述多個集合中元素與集合的歸屬關系確定所述第一類標識性元素、所述待刪除元素和集合的第一對應關系;
根據所述第一對應關系獲得至少一個第一元素組,其中,任一所述第一元素組中均包括有至少兩個所述第一類標識性元素,同一個第一元素組中的所述第一類標識性元素不同且均對應有相同的所述待刪除元素;
對每一個所述第一元素組:從該第一元素組中選取N-1個所述第一類標識性元素,確定選取的所述第一類標識性元素對應的集合,從確定的集合中將該第一元素組中各第一類標識性元素均對應的待刪除元素刪除,獲得已處理集合,其中,N為該第一元素組中第一類標示性元素的數量。
可選的,還包括:
將所述待處理的多個集合中未進行待刪除元素刪除的集合與所述已處理集合確定為待合并集合;
根據所述待合并集合中元素與所述待合并集合的歸屬關系確定所述待合并集合中元素與所述待合并集合的集合標識的第二對應關系;
根據所述第二對應關系獲得至少一個第二元素組,其中,同一第二元素組中的各元素對應的集合標識均相同且各元素對應的集合標識至少為兩個;
從每個第二元素組中均選取一個元素作為待處理元素,對每個待處理元素:將該待處理元素對應的集合標識對應的集合進行合并,獲得并集;
建立各并集與集合標識的對應關系,將對應的集合標識相同的并集進行合并;
根據對應的集合標識相同的并集進行合并后得到的全部集合的數量確定作為輸出結果的集合。
可選的:所述根據所述第二對應關系獲得至少一個第二元素組,其中,同一第二元素組中的各元素對應的集合標識均相同且各元素對應的集合標識至少為兩個,包括:
根據所述第二對應關系確定元素對應的集合標識的數量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710919176.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于大數據的識別方法
- 下一篇:實時數據處理分析系統





