[發明專利]文本數據的去重方法、設備及存儲介質有效
| 申請號: | 202011150210.0 | 申請日: | 2020-10-23 |
| 公開(公告)號: | CN112463774B | 公開(公告)日: | 2021-10-12 |
| 發明(設計)人: | 于淼;劉炎;覃建策;陳邦忠 | 申請(專利權)人: | 完美世界控股集團有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/22;G06F16/242 |
| 代理公司: | 北京太合九思知識產權代理有限公司 11610 | 代理人: | 張愛;劉戈 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 數據 方法 設備 存儲 介質 | ||
本申請實施例提供一種文本數據的去重方法、設備及存儲介質。在本實施例中,對待去重的目標數據進行去重時,從目標數據中獲取待去重的數據對,并將數據對輸入預先訓練的去重模型。在去重模型中,可基于預設的不同字段類型的比對規則,對輸入的待去重的數據對中的待去重關鍵字段的字段值進行比對,從而計算待去重的數據對的相似度。基于這種實施方式,可有效地對不同類型的字段進行去重,實現較優的數據去重效果。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種文本數據的去重方法、設備及存儲介質。
背景技術
在互聯網縱橫發展的時代,海量數據涌入我們的生活,如何挖掘有效信息、去除冗余數據,成為了提升信息獲取效率的關鍵所在。
現有的數據去重方法的去重效果較差,無法在大規模數據去重場景中實現較優的數據去重效果。因此,有待提出一種新的解決方案。
發明內容
本申請的多個方面提供一種文本數據的去重方法、設備及存儲介質,用以有效地進行數據去重,提升數據去重的效果。
本申請實施例還提供一種文本數據的去重方法,包括:獲取待去重的目標數據;從所述目標數據中獲取多組待去重的數據對,每組待去重的數據對包含多條數據記錄;將所述多組待去重的數據對分別輸入預先訓練的去重模型,并獲取所述去重模型輸出的所述多組待去重的數據對各自的去重結果;根據所述多組待去重的數據對各自的去重結果,確定所述目標數據的第一去重結果;其中,所述去重模型用于:根據預設的不同字段類型對應的比對規則,對輸入的待去重的數據對中的待去重關鍵字段的字段值進行比對,以確定所述待去重的數據對的相似度,得到所述待去重的數據對的去重結果。
進一步可選地,將所述多組數據對分別輸入預先訓練的去重模型,并獲取所述去重模型輸出的所述多組數據對各自的去重結果,包括:針對所述多組待去重的數據對中的任一組待去重的數據對,將所述待去重的數據對輸入所述去重模型;在所述去重模型中,從所述待去重的數據對中提取所述待去重關鍵字段的字段值;根據所述不同字段類型對應的比對規則,對所述待去重關鍵字段的字段值進行比對,得到所述待去重關鍵字段的對比結果;利用所述去重模型預先學習的不同字段類型的權重參數,對所述待去重關鍵字段的對比結果進行加權計算,得到所述待去重的數據對的相似度。
進一步可選地,從所述目標數據中獲取多組待去重的數據對,每組待去重的數據對包含多條數據記錄,包括:對所述目標數據進行區塊劃分,得到多個區塊,每個區塊內的數據記錄具有相同的特定特征;確定所述目標數據包含的數據記錄與所述多個區塊的對應關系;根據所述目標數據包含的數據記錄與所述多個區塊的對應關系,從所述目標數據中,選取對應的區塊滿足設定條件的數據記錄,作為一組待去重的數據對。
進一步可選地,對所述目標數據進行區塊劃分,得到多個區塊,每個區塊內的數據記錄具有相同的特定特征,包括:采用謂詞函數,提取所述目標數據包含的每條數據記錄各自的謂詞索引;將具有至少一個相同的謂詞索引的數據記錄劃分至同一區塊,得到所述目標數據包含的所述多個區塊。
進一步可選地,確定所述目標數據包含的數據記錄與所述多個區塊的對應關系,包括:根據所述多個區塊各自對應的至少一個謂詞索引,確定所述多個區塊各自的區塊關鍵字;為所述多個區塊分別設置區塊ID,得到多個區塊ID;根據所述目標數據包含的數據記錄各自的謂詞索引和所述多個區塊各自的區塊關鍵字的對應關系,確定所述目標數據包含的數據記錄各自對應的區塊ID,并建立所述目標數據中的每條數據記錄的數據ID和區塊ID的對應關系。
進一步可選地,從所述目標數據中,選取對應的區塊滿足設定條件的數據記錄,作為一組待去重的數據對,包括:從所述目標數據中,確定對應的區塊ID相同的數據記錄,作為一組待去重的數據對。
進一步可選地,還包括:對所述多個區塊ID進行升序排序,得到升序排序結果;針對所述多個區塊ID中的任意一個區塊ID,從所述升序排序結果中,確定小于所述區塊ID的至少一個區塊ID,作為所述區塊ID的小值區塊ID。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于完美世界控股集團有限公司,未經完美世界控股集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011150210.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





