[發(fā)明專利]數(shù)據(jù)清洗方法及裝置和信息推薦方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201910132328.1 | 申請(qǐng)日: | 2019-02-22 |
| 公開(公告)號(hào): | CN110427358B | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計(jì))人: | 傅有;李勇;許陽;包勇軍 | 申請(qǐng)(專利權(quán))人: | 北京沃東天駿信息技術(shù)有限公司 |
| 主分類號(hào): | G06F16/215 | 分類號(hào): | G06F16/215;G06F16/9535;G06Q30/06 |
| 代理公司: | 中國(guó)貿(mào)促會(huì)專利商標(biāo)事務(wù)所有限公司 11038 | 代理人: | 王莉莉 |
| 地址: | 100176 北京市大興區(qū)北京經(jīng)濟(jì)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 清洗 方法 裝置 信息 推薦 | ||
本公開涉及數(shù)據(jù)清洗方法及裝置和信息推薦方法及裝置,涉及數(shù)據(jù)處理領(lǐng)域。數(shù)據(jù)清洗方法包括:將數(shù)據(jù)集按第一屬性進(jìn)行分組,得到至少一個(gè)數(shù)據(jù)子集;根據(jù)所述數(shù)據(jù)子集的第二屬性,確定與每個(gè)數(shù)據(jù)子集對(duì)應(yīng)的采樣比例;根據(jù)一數(shù)據(jù)的第一屬性,確定該數(shù)據(jù)所在數(shù)據(jù)子集對(duì)應(yīng)的采樣比例;比較所述采樣比例和所述數(shù)據(jù)對(duì)應(yīng)的預(yù)設(shè)閾值;根據(jù)比較結(jié)果,確定是否保留所述數(shù)據(jù)。根據(jù)本公開,考慮了數(shù)據(jù)中存在的由外部因素引入的噪聲,減少了噪聲數(shù)據(jù)對(duì)模型訓(xùn)練的影響。
技術(shù)領(lǐng)域
本公開涉及數(shù)據(jù)處理領(lǐng)域,特別涉及數(shù)據(jù)清洗方法及裝置和信息推薦方法及裝置、計(jì)算機(jī)可存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著電子商務(wù)規(guī)模的不斷擴(kuò)大,根據(jù)不同用戶的喜好挖掘生成用戶畫像,為每位用戶提供“千人千面”的個(gè)性化推薦內(nèi)容的能力成為電商網(wǎng)站的核心競(jìng)爭(zhēng)力。
在個(gè)性化推薦的排序階段,通常要構(gòu)建模型,提高個(gè)性化推薦的準(zhǔn)確性。在模型構(gòu)建的過程中,需要大量的訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。訓(xùn)練數(shù)據(jù)是否準(zhǔn)確、合理成為決定模型效果好壞的關(guān)鍵。在使用訓(xùn)練數(shù)據(jù)訓(xùn)練模型之前,通常會(huì)采用相關(guān)的數(shù)據(jù)清洗技術(shù)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理。
相關(guān)的數(shù)據(jù)清洗技術(shù)關(guān)注于重復(fù)數(shù)據(jù)的去除、缺失值和無效值的補(bǔ)全、非法數(shù)據(jù)的處理等。
發(fā)明內(nèi)容
發(fā)明人認(rèn)為:相關(guān)的數(shù)據(jù)清洗技術(shù)關(guān)注于重復(fù)數(shù)據(jù)的去除、缺失值和無效值的補(bǔ)全、非法數(shù)據(jù)的處理,無法減少外部因素引入的噪聲對(duì)模型訓(xùn)練的影響。
針對(duì)上述技術(shù)問題,本公開提出了一種解決方案,考慮了數(shù)據(jù)中存在的由外部因素引入的噪聲,減少了噪聲數(shù)據(jù)對(duì)模型訓(xùn)練的影響。
根據(jù)本公開的第一方面,提供了一種數(shù)據(jù)清洗方法,包括:將數(shù)據(jù)集按第一屬性進(jìn)行分組,得到至少一個(gè)數(shù)據(jù)子集;根據(jù)所述數(shù)據(jù)子集的第二屬性,確定與每個(gè)數(shù)據(jù)子集對(duì)應(yīng)的采樣比例;根據(jù)一數(shù)據(jù)的第一屬性,確定該數(shù)據(jù)所在數(shù)據(jù)子集對(duì)應(yīng)的采樣比例;比較所述采樣比例和所述數(shù)據(jù)對(duì)應(yīng)的預(yù)設(shè)閾值;根據(jù)比較結(jié)果,確定是否保留所述數(shù)據(jù)。
在一些實(shí)施例中,所述數(shù)據(jù)的第二屬性為第一值,根據(jù)比較結(jié)果,確定是否保留所述數(shù)據(jù)包括:在所述采樣比例小于或者等于所述數(shù)據(jù)對(duì)應(yīng)的預(yù)設(shè)閾值的情況下,確定保留所述數(shù)據(jù)。
在一些實(shí)施例中,所述第一屬性為用戶ID;所述第二屬性為點(diǎn)擊標(biāo)簽。
在一些實(shí)施例中,根據(jù)所述數(shù)據(jù)子集的第二屬性,確定與每個(gè)數(shù)據(jù)子集對(duì)應(yīng)的采樣比例包括:根據(jù)第二屬性,計(jì)算每個(gè)數(shù)據(jù)子集對(duì)應(yīng)的點(diǎn)擊率;根據(jù)每個(gè)數(shù)據(jù)子集對(duì)應(yīng)的點(diǎn)擊率,確定該數(shù)據(jù)子集對(duì)應(yīng)的采樣比例。
在一些實(shí)施例中,根據(jù)第二屬性,計(jì)算每個(gè)數(shù)據(jù)子集對(duì)應(yīng)的點(diǎn)擊率包括:計(jì)算每個(gè)數(shù)據(jù)子集中第二屬性為第二值的數(shù)據(jù)的數(shù)量占每個(gè)數(shù)據(jù)子集中的數(shù)據(jù)總量的比例,作為每個(gè)數(shù)據(jù)子集對(duì)應(yīng)的點(diǎn)擊率。
在一些實(shí)施例中,根據(jù)每個(gè)數(shù)據(jù)子集對(duì)應(yīng)的點(diǎn)擊率,確定該數(shù)據(jù)子集對(duì)應(yīng)的采樣比例包括:根據(jù)每個(gè)數(shù)據(jù)子集對(duì)應(yīng)的點(diǎn)擊率,得到點(diǎn)擊率的分布范圍;將點(diǎn)擊率的分布范圍劃分為至少一個(gè)點(diǎn)擊率區(qū)間,每個(gè)點(diǎn)擊率區(qū)間對(duì)應(yīng)一個(gè)采樣比例;根據(jù)每個(gè)數(shù)據(jù)子集對(duì)應(yīng)的點(diǎn)擊率所在的點(diǎn)擊率區(qū)間,得到該數(shù)據(jù)子集對(duì)應(yīng)的采樣比例。
在一些實(shí)施例中,數(shù)據(jù)清洗方法還包括:建立采樣比例表,所述采樣比例表反映每個(gè)數(shù)據(jù)子集的第一屬性與采樣比例之間的對(duì)應(yīng)關(guān)系。
在一些實(shí)施例中,根據(jù)一數(shù)據(jù)的第一屬性,確定該數(shù)據(jù)所在數(shù)據(jù)子集對(duì)應(yīng)的采樣比例包括:根據(jù)一數(shù)據(jù)的第一屬性,查詢所述采樣比例表,確定該數(shù)據(jù)所在數(shù)據(jù)子集的采樣比例。
在一些實(shí)施例中,數(shù)據(jù)集中的每個(gè)數(shù)據(jù)對(duì)應(yīng)一個(gè)預(yù)設(shè)閾值,所述預(yù)設(shè)閾值為0~1之間服從均勻分布的隨機(jī)數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京沃東天駿信息技術(shù)有限公司,未經(jīng)北京沃東天駿信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910132328.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





