[發明專利]去重信息獲取方法、裝置和電子設備有效
| 申請號: | 202010534552.6 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111694802B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 尹暢文;黃斐喬;葉峻 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/174 | 分類號: | G06F16/174;G06F16/215 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 許靜;黃燦 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 獲取 方法 裝置 電子設備 | ||
1.一種去重信息獲取方法,包括:
對初始數據集進行采樣,得到采樣數據集,所述初始數據集包括屬于同一屬性的N個特征值,所述采樣數據集包括所述N個特征值中的n個特征值,所述n為小于所述N的整數;
對所述n個特征值進行去重操作,以得到去重數據集,統計所述去重數據集中的每個特征值在所述n個特征值中出現的次數;
基于所述去重數據集和所述次數,確定所述初始數據集的去重信息;
所述基于所述去重數據集和所述次數,確定所述初始數據集的去重信息,包括:
在所述去重數據集包括的特征值數大于或者等于第一預設值的情況下,確定第一目標數值,其中,第一目標數值為所述去重數據集中在所述n個特征值中出現的次數為1的特征值的個數;
基于所述第一目標數值,確定所述初始數據集的去重信息;
在所述去重數據集包括的特征值數小于第二預設值的情況下,將所述去重數據集包括的特征值數確定為所述去重信息;
利用采樣率,對去所述重數據集中的s個特征值進行還原,所述s為所述第一目標數值,所述s個特征值為所述n個特征值中出現的次數為1的s個特征值,所述采樣率為n/N;對所述去重數據集中,除所述s個特征值之外的其他特征值不進行還原。
2.根據權利要求1所述的方法,其中,所述基于所述第一目標數值,確定所述初始數據集的去重信息,包括:
通過如下公式計算所述初始數據集的去重信息:
D=d+(N/n-1)s;
其中,所述D表示所述去重信息,所述d表示所述去重數據集包括的特征值數,s表示所述第一目標數值。
3.根據權利要求1所述的方法,其中,所述對初始數據集進行采樣,得到采樣數據集之前,所述方法還包括:
獲取預設范圍內的若干個事件,其中,每個事件包括至少一個屬性的特征值;
獲取每個事件中的特征值,得到特征集;
按照屬性類型對所述特征集中的特征值進行分類,得到至少一個所述初始數據集。
4.一種去重信息獲取裝置,包括:
采樣模塊,用于對初始數據集進行采樣,得到采樣數據集,所述初始數據集包括屬于同一屬性的N個特征值,所述采樣數據集包括所述N個特征值中的n個特征值,所述n為小于所述N的整數;
去重模塊,用于對所述n個特征值進行去重操作,以得到去重數據集,統計所述去重數據集中的每個特征值在所述n個特征值中出現的次數;
確定模塊,用于基于所述去重數據集和所述次數,確定所述初始數據集的去重信息;
所述確定模塊包括:
第一確定子模塊,用于在所述去重數據集包括的特征值數大于或者等于第一預設值的情況下,確定第一目標數值,其中,第一目標數值為所述去重數據集中在所述n個特征值中出現的次數為1的特征值的個數;
第二確定子模塊,用于基于所述第一目標數值,確定所述初始數據集的去重信息;
所述確定模塊包括:
第三確定子模塊,用于在所述去重數據集包括的特征值數小于第二預設值的情況下,將所述去重數據集包括的特征值數確定為所述去重信息;
利用采樣率,對去所述重數據集中的s個特征值進行還原,所述s為所述第一目標數值,所述s個特征值為所述n個特征值中出現的次數為1的s個特征值,所述采樣率為n/N;對所述去重數據集中,除所述s個特征值之外的其他特征值不進行還原。
5.根據權利要求4所述的裝置,其中,所述第二確定子模塊,具體用于通過如下公式計算所述初始數據集的去重信息:
D=d+(N/n-1)s;
其中,所述D表示所述去重信息,所述d表示所述去重數據集包括的特征值數,s表示所述第一目標數值。
6.根據權利要求4所述的裝置,其中,所述裝置還包括:
第一獲取模塊,用于獲取預設范圍內的若干個事件,其中,每個事件包括至少一個屬性的特征值;
第二獲取模塊,用于獲取每個事件中的特征值,得到特征集;
分類模塊,用于按照屬性類型對所述特征集中的特征值進行分類,得到至少一個所述初始數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010534552.6/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





