[發明專利]一種訓練數據的處理方法及裝置有效
| 申請號: | 201510362416.2 | 申請日: | 2015-06-26 |
| 公開(公告)號: | CN105005588B | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 李超 | 申請(專利權)人: | 深圳市騰訊計算機系統有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙)44300 | 代理人: | 黃威 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 數據 處理 方法 裝置 | ||
技術領域
本發明屬于計算技術領域,尤其涉及一種訓練數據的處理方法及裝置。
背景技術
在用戶瀏覽頁面時,廣告平臺根據用戶的網絡瀏覽或搜索行為,以及頁面的內容,預估所有備選廣告的點擊率,選擇點擊率預估值較高的廣告進行優先投放,因此在線廣告的點擊率預估在廣告投放過程中起著重要的作用。
目前業界主要使用簡單線性模型如邏輯回歸(LR,Logistic Regression)等進行廣告點擊率建模,模型求解過程簡潔且較為迅速,可以在一定程度上防止對數據的過度擬合等。由于在訓練數據訓練以及廣告點擊率預估過程中,模型所使用到的特征數量繁多,名義空間范圍大(通??蛇_到百億級以上)且通常不是連續值,故LR模型一般使用哈希表的稀疏結構來進行存儲。
通過哈希表來保存LR模型可以較方便地進行模型的訓練與預測,但是由于哈希表是采用稀疏結構來存儲,因此存儲空間相對消耗較大,從而降低了模型的網絡傳輸速度和模型訓練更新的速度。
發明內容
本發明的目的在于提供一種訓練數據的處理方法及裝置,旨在減少了存儲空間的消耗,提升模型的網絡傳輸速度和模型訓練更新的速度。
為解決上述技術問題,本發明實施例提供以下技術方案:
一種訓練數據的處理方法,其中包括:
獲取訓練數據,并確定所述訓練數據的原始特征空間,所述原始特征空間為訓練數據原始的特征數據存儲結構;
對所述原始特征空間進行掃描統計,并根據統計結果建立全局索引;
根據所述全局索引將所述訓練數據映射到實際特征空間,所述實際特征空間為根據在原始特征空間內實際存儲有特征數據的位置而構成的存儲結構;
利用實際特征空間的訓練數據進行模型訓練。
為解決上述技術問題,本發明實施例還提供以下技術方案:
一種訓練數據的處理裝置,其中包括:
獲取單元,用于獲取訓練數據,并確定所述訓練數據的原始特征空間,所述原始特征空間為訓練數據原始的特征數據存儲結構;
索引建立單元,用于對所述原始特征空間進行掃描統計,并根據統計結果建立全局索引;
映射單元,用于根據所述全局索引將所述訓練數據映射到實際特征空間,所述實際特征空間為根據在原始特征空間內實際存儲有特征數據的位置而構成的存儲結構;
訓練單元,用于利用實際特征空間的訓練數據進行模型訓練。
相對于現有技術,本實施例,通過全局索引,將原始特征空間的訓練數據,映射到實際特征空間,其中實際特征空間是根據在原始特征空間內實際存儲有特征數據的位置而構成的存儲結構,其后利用實際特征空間的訓練數據進行模型訓練;本發明實施例,通過全局索引將訓練數據做一次映射,將稀疏的存儲結構轉換為稠密的存儲結構,不僅大大的減少了存儲空間的消耗,還提升了模型的網絡傳輸速度和模型訓練更新的速度。
附圖說明
下面結合附圖,通過對本發明的具體實施方式詳細描述,將使本發明的技術方案及其它有益效果顯而易見。
圖1a是本發明提供的訓練數據的處理方法的場景示意圖;
圖1b是本發明第一實施例提供的訓練數據的處理方法的流程示意圖;
圖2a為本發明第二實施例提供的訓練數據的處理方法的流程示意圖;
圖2b為本發明第二實施例提供的訓練數據的處理方法中的訓練數據與模型的示意圖;
圖2c為本發明第二實施例提供的訓練數據的處理方法中的全局索引映射示意圖;
圖3為本發明第三實施例提供的訓練數據的處理裝置的結構示意圖;
圖4為本發明第四實施例提供的服務器的結構示意圖。
具體實施方式
請參照圖式,其中相同的組件符號代表相同的組件,本發明的原理是以實施在一適當的運算環境中來舉例說明。以下的說明是基于所例示的本發明具體實施例,其不應被視為限制本發明未在此詳述的其它具體實施例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市騰訊計算機系統有限公司,未經深圳市騰訊計算機系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510362416.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生成索引文檔ID的方法及裝置
- 下一篇:一種地址匹配方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





