[發明專利]文本數據的去重方法、設備及存儲介質有效
| 申請號: | 202011150210.0 | 申請日: | 2020-10-23 |
| 公開(公告)號: | CN112463774B | 公開(公告)日: | 2021-10-12 |
| 發明(設計)人: | 于淼;劉炎;覃建策;陳邦忠 | 申請(專利權)人: | 完美世界控股集團有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/22;G06F16/242 |
| 代理公司: | 北京太合九思知識產權代理有限公司 11610 | 代理人: | 張愛;劉戈 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 數據 方法 設備 存儲 介質 | ||
1.一種文本數據的去重方法,其特征在于,包括:
獲取待去重的目標數據;
從所述目標數據中獲取多組待去重的數據對,每組待去重的數據對包含多條數據記錄;
將所述多組待去重的數據對分別輸入預先訓練的去重模型,并獲取所述去重模型輸出的所述多組待去重的數據對各自的去重結果;
根據所述多組待去重的數據對各自的去重結果,確定所述目標數據的第一去重結果;
其中,所述去重模型用于:根據預設的不同字段類型對應的比對規則,對輸入的待去重的數據對中的待去重關鍵字段的字段值進行比對,以確定所述待去重的數據對的相似度,得到所述待去重的數據對的去重結果;
若所述目標數據對為增量去重數據,則確定存量已去重數據;
從所述存量已去重數據中選取與所述第一去重結果具有相同數據量大小的多個數據塊;
分別對所述多個數據塊進行區塊分割,得到所述多個數據塊各自包含的多個區塊,以確定所述多個數據塊各自包含的數據記錄的區塊ID;
針對所述數據塊中的任一數據塊,從所述第一去重結果中選取第i條數據記錄,并從所述數據塊中選取與所述第i條數據記錄具有相同區塊ID的一條數據記錄,組成第i組待匹配的數據對;其中,i=1,2,3…n,其中,n表示所述第一去重結果包含的數據記錄的總數;
將所述多個數據塊對應的多組待匹配的數據對分別輸入預先訓練的匹配模型,并獲取所述匹配模型輸出的所述多組待匹配的數據對各自的匹配結果;
根據所述多組待匹配的數據對各自的匹配結果,確定所述目標數據的第二去重結果。
2.根據權利要求1所述的方法,其特征在于,將所述多組數據對分別輸入預先訓練的去重模型,并獲取所述去重模型輸出的所述多組數據對各自的去重結果,包括:
針對所述多組待去重的數據對中的任一組待去重的數據對,將所述待去重的數據對輸入所述去重模型;
在所述去重模型中,從所述待去重的數據對中提取所述待去重關鍵字段的字段值;
根據所述不同字段類型對應的比對規則,對所述待去重關鍵字段的字段值進行比對,得到所述待去重關鍵字段的對比結果;
利用所述去重模型預先學習的不同字段類型的權重參數,對所述待去重關鍵字段的對比結果進行加權計算,得到所述待去重的數據對的相似度。
3.根據權利要求1所述的方法,其特征在于,從所述目標數據中獲取多組待去重的數據對,每組待去重的數據對包含多條數據記錄,包括:
對所述目標數據進行區塊劃分,得到多個區塊,每個區塊內的數據記錄具有相同的特定特征;
確定所述目標數據包含的數據記錄與所述多個區塊的對應關系;
根據所述目標數據包含的數據記錄與所述多個區塊的對應關系,從所述目標數據中,選取對應的區塊滿足設定條件的數據記錄,作為一組待去重的數據對。
4.根據權利要求3所述的方法,其特征在于,對所述目標數據進行區塊劃分,得到多個區塊,每個區塊內的數據記錄具有相同的特定特征,包括:
采用謂詞函數,提取所述目標數據包含的每條數據記錄各自的謂詞索引;
將具有至少一個相同的謂詞索引的數據記錄劃分至同一區塊,得到所述目標數據包含的所述多個區塊。
5.根據權利要求4所述的方法,其特征在于,確定所述目標數據包含的數據記錄與所述多個區塊的對應關系,包括:
根據所述多個區塊各自對應的至少一個謂詞索引,確定所述多個區塊各自的區塊關鍵字;
為所述多個區塊分別設置區塊ID,得到多個區塊ID;
根據所述目標數據包含的數據記錄各自的謂詞索引和所述多個區塊各自的區塊關鍵字的對應關系,確定所述目標數據包含的數據記錄各自對應的區塊ID,并建立所述目標數據中的每條數據記錄的數據ID和區塊ID的對應關系。
6.根據權利要求5所述的方法,其特征在于,從所述目標數據中,選取對應的區塊滿足設定條件的數據記錄,作為一組待去重的數據對,包括:
從所述目標數據中,確定對應的區塊ID相同的數據記錄,作為一組待去重的數據對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于完美世界控股集團有限公司,未經完美世界控股集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011150210.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





