[發明專利]去重信息獲取方法、裝置和電子設備有效
| 申請號: | 202010534552.6 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111694802B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 尹暢文;黃斐喬;葉峻 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/174 | 分類號: | G06F16/174;G06F16/215 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 許靜;黃燦 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 獲取 方法 裝置 電子設備 | ||
本申請公開了一種去重信息獲取方法、裝置和電子設備,涉及計算機領域中的大數據技術,可用于云平臺或云服務。具體實現方案為:一種去重信息獲取方法,包括:對初始數據集進行采樣,得到采樣數據集,所述初始數據集包括屬于同一屬性的N個特征值,所述采樣數據集包括所述N個特征值中的n個特征值,所述n為小于所述N的整數;對所述n個特征值進行去重操作,以得到去重數據集,統計所述去重數據集中的每個特征值在所述n個特征值中出現的次數;基于所述去重數據集和所述次數,確定所述初始數據集的去重信息。本申請提供的一種去重信息獲取方法、裝置和電子設備,可以解決現有技術中對屬性特征值的去重效果差的問題。
技術領域
本申請涉及計算機領域中的大數據技術,具體涉及一種去重信息獲取方法、裝置和電子設備。
背景技術
數據去重是一種用于消除冗余數據的數據壓縮技術,現有技術中,存在一些算法用于對數據進行去重。然而,當待去重的初始數據集中的數據量相當大時,如初始數據集中包括上千萬條數據時,若采用現有算法對初始數據集直接進行去重,將導致去重過程耗時相當長的問題?;诖?,現有技術中,當初始數據集中的數據量相當大時,通常采用對初始數據集進行采樣的方法對初始數據集進行去重統計,即通過將采樣數據的去重數除以采樣率得到的值作為初始數據集的去重結果。
發明內容
本申請提供一種去重信息獲取方法、裝置和電子設備,以解決現有技術中對屬性特征值的去重效果差的問題。
第一方面,本申請提供一種去重信息獲取方法,包括:
對初始數據集進行采樣,得到采樣數據集,所述初始數據集包括屬于同一屬性的N個特征值,所述采樣數據集包括所述N個特征值中的n個特征值,所述n為小于所述N的整數;
對所述n個特征值進行去重操作,以得到去重數據集,統計所述去重數據集中的每個特征值在所述n個特征值中出現的次數;
基于所述去重數據集和所述次數,確定所述初始數據集的去重信息。
這樣,在采用采樣的方法獲取屬性特征值的去重信息時,通過對采樣數據集中的特征值進行去重操作,以獲得去重數據集,同時統計去重數據集中的每個特征值在所述n個特征值中出現的次數,然后,基于去重數據集和所述次數,確定所述初始數據集的去重信息。這樣,可以提高所獲取的去重信息的準確性。
可選地,所述基于所述去重數據集和所述次數,確定所述初始數據集的去重信息,包括:
在所述去重數據集包括的特征值數大于或者等于第一預設值的情況下,確定第一目標數值,其中,第一目標數值為所述去重數據集中在所述n個特征值中出現的次數為1的特征值的個數;
基于所述第一目標數值,確定所述初始數據集的去重信息。
該實施方式中,通過對去重數據集中出現次數較少的特征值進行還原處理,以便于進一步提高去重信息的準確性。
可選地,所述基于所述第一目標數值,確定所述初始數據集的去重信息,包括:
通過如下公式計算所述初始數據集的去重信息:
D=d+(N/n-1)s;
其中,所述D表示所述去重信息,所述d表示所述去重數據集包括的特征值數,s表示所述第一目標數值。
該實施方式中,通過僅對出現次數為1的特征值進行還原,可以有效的提高所獲取的去重信息的準確性。
可選地,基于所述去重數據集和所述次數,確定所述初始數據集的去重信息,包括:
在所述去重數據集包括的特征值數小于第二預設值的情況下,將所述去重數據集包括的特征值數確定為所述去重信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010534552.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





