[發(fā)明專利]一種針對于預(yù)估模型的數(shù)據(jù)處理方法及裝置在審
| 申請?zhí)枺?/td> | 201510564920.0 | 申請日: | 2015-09-08 |
| 公開(公告)號: | CN105224998A | 公開(公告)日: | 2016-01-06 |
| 發(fā)明(設(shè)計)人: | 馬越 | 申請(專利權(quán))人: | 北京金山安全軟件有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q30/02 |
| 代理公司: | 北京柏杉松知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 孫翠賢;馬敬 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對 預(yù)估 模型 數(shù)據(jù)處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及預(yù)估模型訓(xùn)練技術(shù)領(lǐng)域,特別是涉及一種針對于預(yù)估模型的數(shù)據(jù)處理方法及裝置。
背景技術(shù)
現(xiàn)有技術(shù)中,預(yù)估模型是常用的一種模型,能夠為數(shù)據(jù)應(yīng)用提供針對性的參考信息,例如:作為預(yù)估模型的廣告點擊率預(yù)估模型能夠為廣告投放提供針對性的參考信息。在預(yù)估模型的每次訓(xùn)練時,需要利用到基于上次模型訓(xùn)練的輸出數(shù)據(jù)所形成的歷史特征信息和基于本次訓(xùn)練所對應(yīng)數(shù)據(jù)采集時間段內(nèi)的用戶操作所生成的用戶日志數(shù)據(jù),其中,歷史特征信息中包括多組特征描述信息,特征描述信息與特征一一對應(yīng),每一特征描述信息中包括特征名和訓(xùn)練所得的特征值;具體訓(xùn)練過程為:從用戶日志數(shù)據(jù)中所需的目標(biāo)特征的目標(biāo)特征名,并且,構(gòu)建每一目標(biāo)特征各自所對應(yīng)的特征描述信息,其中,每一目標(biāo)特征所對應(yīng)的特征描述信息包括目標(biāo)特征名和默認(rèn)特征值,每一目標(biāo)特征所對應(yīng)的默認(rèn)特征值均相同;進(jìn)而,將歷史特征信息中的多組特征描述信息和目標(biāo)特征所對應(yīng)的特征描述信息作為該廣告點擊率預(yù)估模型的輸入數(shù)據(jù)進(jìn)行訓(xùn)練,得到輸出數(shù)據(jù)。其中,歷史特征信息中的特征描述信息所涉及的特征和目標(biāo)特征通常存在相同的。
對于預(yù)估模型而言,由于每次訓(xùn)練會增加新的特征,累積到一定數(shù)量,訓(xùn)練數(shù)據(jù)的數(shù)據(jù)量將過大,導(dǎo)致訓(xùn)練時無法一次性讀入到內(nèi)存,因此,為了避免數(shù)據(jù)量過大,所使用的歷史特征信息所涉及的時段有限,不能無限累積,但是,這樣會帶來特征缺少,使得所訓(xùn)練的預(yù)估模型的精準(zhǔn)性受到影響。
發(fā)明內(nèi)容
本發(fā)明實施例的目的在于提供一種針對于預(yù)估模型的數(shù)據(jù)處理方法及裝置,以在降低訓(xùn)練數(shù)據(jù)的數(shù)據(jù)量大小的同時保證特征的完整,從而保證所訓(xùn)練預(yù)估模型的精準(zhǔn)性。具體技術(shù)方案如下:
第一方面,本發(fā)明實施例提供了一種針對于預(yù)估模型的數(shù)據(jù)處理方法,包括:
獲得從用戶日志數(shù)據(jù)中提取的多個目標(biāo)特征的目標(biāo)特征名,其中,所述用戶日志數(shù)據(jù)為基于本次訓(xùn)練所對應(yīng)數(shù)據(jù)采集時間段內(nèi)的用戶操作所生成的日志數(shù)據(jù);
獲得歷史特征信息,其中,所述歷史特征信息為預(yù)先保存的且基于上一次訓(xùn)練所述預(yù)估模型所得的輸出數(shù)據(jù)所生成;
對所述目標(biāo)特征名和所述歷史特征信息進(jìn)行累加處理,得到待利用的多組特征描述信息,其中,所述待利用的多組特征描述信息中的特征名各不相同且特征值基于所述歷史特征信息確定;
將所述待利用的多組特征描述信息作為輸入數(shù)據(jù)對所述預(yù)估模型進(jìn)行訓(xùn)練,得到作為輸出數(shù)據(jù)的多組特征描述信息。
可選的,本發(fā)明實施例所提供的一種針對于預(yù)估模型的數(shù)據(jù)處理方法還包括:
基于作為輸出數(shù)據(jù)的多組特征描述信息,按照預(yù)定更新方式更新所述歷史特征信息;其中,所述預(yù)定更新方式包括:
分別判斷作為輸出數(shù)據(jù)的每一組特征描述信息中的特征名是否與所述歷史特征信息所包括一組特征描述信息中的特征名相同,如果相同,將所述歷史特征信息所包括該組特征描述信息中的特征值更新為作為輸出數(shù)據(jù)的該組特征描述信息中的特征值,否則,在所述歷史特征信息中增加作為輸出數(shù)據(jù)的該組特征描述信息。
可選的,所述待利用的多組特征描述信息中的特征名均為目標(biāo)特征名。
可選的,所述待利用的多組特征描述信息中的特征名包括目標(biāo)特征名和所述歷史特征信息所包括的特征描述信息中與所述目標(biāo)特征名不同的特征名。
可選的,待利用的任意一組的特征描述信息中特征值的確定方式,包括:
如果待利用的當(dāng)前組的特征描述信息中的特征名與所述歷史特征信息所包括的一組特征描述信息中的特征名相同,則該當(dāng)前組的特征描述信息中的特征值為所述歷史特征信息中該組特征描述信息中的特征值;
如果待利用的當(dāng)前組的特征描述信息中的特征名與所述歷史特征信息所包括特征描述信息中的特征名均不相同,則該當(dāng)前組的特征描述信息中的特征名所對應(yīng)的特征值為默認(rèn)值。
可選的,所述將所述待利用的多組特征描述信息作為輸入數(shù)據(jù)對所述預(yù)估模型進(jìn)行訓(xùn)練,得到作為輸出數(shù)據(jù)的多組特征描述信息,包括:
確定訓(xùn)練所述預(yù)估模型所需的目標(biāo)函數(shù),其中,所述目標(biāo)函數(shù)為:f(特征名,特征值)=訓(xùn)練后特征值;
基于待利用的多組特征描述信息和所述目標(biāo)函數(shù),得到所述多組特征描述信息中的特征名所對應(yīng)的訓(xùn)練后特征值;
將所述待利用的多組特征描述信息中的特征名和相應(yīng)訓(xùn)練后特征值構(gòu)成作為輸出數(shù)據(jù)的特征描述信息。
第二方面,本發(fā)明實施例提供了一種針對于預(yù)估模型的數(shù)據(jù)處理裝置,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京金山安全軟件有限公司,未經(jīng)北京金山安全軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510564920.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機(jī)輔助管理
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





