[發(fā)明專利]數(shù)據(jù)清洗方法及裝置和信息推薦方法及裝置有效
| 申請?zhí)枺?/td> | 201910132328.1 | 申請日: | 2019-02-22 |
| 公開(公告)號: | CN110427358B | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計)人: | 傅有;李勇;許陽;包勇軍 | 申請(專利權(quán))人: | 北京沃東天駿信息技術(shù)有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/9535;G06Q30/06 |
| 代理公司: | 中國貿(mào)促會專利商標事務(wù)所有限公司 11038 | 代理人: | 王莉莉 |
| 地址: | 100176 北京市大興區(qū)北京經(jīng)濟*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 清洗 方法 裝置 信息 推薦 | ||
1.一種數(shù)據(jù)清洗方法,包括:
將數(shù)據(jù)集按第一屬性進行分組,得到至少一個數(shù)據(jù)子集;
計算每個數(shù)據(jù)子集中正樣本數(shù)據(jù)的數(shù)量占每個數(shù)據(jù)子集中的數(shù)據(jù)總量的比例,作為每個數(shù)據(jù)子集對應(yīng)的點擊率;
根據(jù)每個數(shù)據(jù)子集對應(yīng)的點擊率,確定該數(shù)據(jù)子集對應(yīng)的采樣比例,包括:
根據(jù)每個數(shù)據(jù)子集對應(yīng)的點擊率,得到點擊率的分布范圍,
將點擊率的分布范圍劃分為至少一個點擊率區(qū)間,每個點擊率區(qū)間對應(yīng)一個采樣比例,點擊率區(qū)間的點擊率越高,該點擊率區(qū)間所對應(yīng)的采樣比例越高,
根據(jù)每個數(shù)據(jù)子集對應(yīng)的點擊率所在的點擊率區(qū)間,得到該數(shù)據(jù)子集對應(yīng)的采樣比例;
根據(jù)一負樣本數(shù)據(jù)的第一屬性,確定該負樣本數(shù)據(jù)所在數(shù)據(jù)子集對應(yīng)的采樣比例;
比較所述采樣比例和所述負樣本數(shù)據(jù)對應(yīng)的預(yù)設(shè)閾值,所述數(shù)據(jù)集中的每個負樣本數(shù)據(jù)對應(yīng)一個預(yù)設(shè)閾值,所述預(yù)設(shè)閾值為0~1之間服從均勻分布的隨機數(shù);
根據(jù)比較結(jié)果,確定是否保留所述負樣本數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)清洗方法,其中,根據(jù)比較結(jié)果,確定是否保留所述負樣本數(shù)據(jù)包括:
在所述采樣比例小于或者等于所述負樣本數(shù)據(jù)對應(yīng)的預(yù)設(shè)閾值的情況下,確定保留所述負樣本數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)清洗方法,其中,
所述第一屬性為用戶ID;
正樣本數(shù)據(jù)和負樣本數(shù)據(jù)通過第二屬性來區(qū)分,所述第二屬性為點擊標簽,第二屬性為第一值的數(shù)據(jù)為負樣本數(shù)據(jù),第二屬性為第二值的數(shù)據(jù)為正樣本數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)清洗方法,還包括:建立采樣比例表,所述采樣比例表反映每個數(shù)據(jù)子集的第一屬性與采樣比例之間的對應(yīng)關(guān)系。
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)清洗方法,其中,根據(jù)一負樣本數(shù)據(jù)的第一屬性,確定該負樣本數(shù)據(jù)所在數(shù)據(jù)子集對應(yīng)的采樣比例包括:
根據(jù)一負樣本數(shù)據(jù)的第一屬性,查詢所述采樣比例表,確定該負樣本數(shù)據(jù)所在數(shù)據(jù)子集的采樣比例。
6.一種信息推薦方法,包括:
獲取用戶的標識;
使用推薦模型為所述用戶推薦信息;
其中,
使用訓(xùn)練數(shù)據(jù)訓(xùn)練所述推薦模型;
通過如權(quán)利要求1至5任一項所述的數(shù)據(jù)清洗方法,得到所述訓(xùn)練數(shù)據(jù)。
7.一種數(shù)據(jù)清洗裝置,包括:
存儲器;以及
耦接至所述存儲器的處理器,所述處理器被配置為基于存儲在所述存儲器的指令,執(zhí)行如權(quán)利要求1至5任一項所述的數(shù)據(jù)清洗方法。
8.一種信息推薦裝置,包括:
存儲器;以及
耦接至所述存儲器的處理器,所述處理器被配置為基于存儲在所述存儲器的指令,執(zhí)行如權(quán)利要求6所述的信息推薦方法。
9.一種計算機可存儲介質(zhì),其上存儲有計算機程序指令,該指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至5任一項所述的數(shù)據(jù)清洗方法或者如權(quán)利要求6所述的信息推薦方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京沃東天駿信息技術(shù)有限公司,未經(jīng)北京沃東天駿信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910132328.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





