[發明專利]一種推薦系統數據抽象與自動化特征工程的方法有效
| 申請號: | 201910829720.1 | 申請日: | 2019-09-04 |
| 公開(公告)號: | CN110531959B | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 張發恩;馮元;吳騰虎 | 申請(專利權)人: | 深圳創新奇智科技有限公司 |
| 主分類號: | G06F8/10 | 分類號: | G06F8/10 |
| 代理公司: | 廣州鼎賢知識產權代理有限公司 44502 | 代理人: | 丁雨燕 |
| 地址: | 518054 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 推薦 系統 數據 抽象 自動化 特征 工程 方法 | ||
本發明涉及一種推薦系統數據抽象與自動化特征工程的方法,對于任意場景的推薦系統數據,只需要了解將該推薦系統數據進行適配后生成的字段內的關鍵詞和指定的處理函數,即可使用通用的數據處理和特征工程代碼,完成特征的生成,包括數據抽象化、對標準抽象數據配置schema,并開發相應的通用處理函數這兩步驟。本方法減少了工程師的開發工作量,使其有更充裕的時間和精力進行模型調優工作。
技術領域
本專利申請屬于推薦系統技術領域,更具體地說,是涉及一種推薦系統數據抽象與自動化特征工程的方法。
背景技術
目前普遍采取case-by-case的處理策略進行數據處理和特征工程,在case-by-case策略中,一個新推薦場景的開發流程如下:
(1)開發人員與甲方溝通,明確開發場景及需求,了解可用數據及業務含義;
(2)開發人員進行數據清洗,特征工程,線下POC測試(基于測試結果重復(2));
(3)開發人員將算法模型與相應特征上線,并進行小流量測試(基于測試結果重復(2)和(3));
(4)選擇獲得線上最佳效果的算法模型和特征,交付推薦系統;
從中可以看出,現有技術存在下述缺點:
case-by-case的策略要求工程師在每個推薦項目內,都要了解數據的具體業務含義,并花費大量時間精力來針對性的編寫數據處理代碼和特征構造代碼,這些代碼往往會由于模型調優的需求而頻繁改動。
隨著人工智能ToB業務的快速發展,推薦系統相關的項目需求越來越多,低效率的case-by-case策略無法滿足乙方‘快速搭建-快速部署-快速上線’的需求。
發明內容
本發明需要解決的技術問題是提供一種推薦系統數據抽象與自動化特征工程的方法,滿足乙方快速搭建-快速部署-快速上線的需求,有效節省工程師的時間精力。
為了解決上述問題,本發明所采用的技術方案是:
一種推薦系統數據抽象與自動化特征工程的方法,對于任意場景的推薦系統數據,只需要了解將該推薦系統數據進行適配后生成的字段內的關鍵詞和指定的處理函數,即可使用通用的數據處理和特征工程代碼,完成特征的生成,具體包括如下步驟:
步驟a、數據抽象化,基于字段設置原則,把甲方提供的原始數據適配成標準抽象數據;
步驟b、對標準抽象數據配置schema,并開發相應的通用處理函數,經過自動化特征工程從而生成特征數據。
本發明技術方案的進一步改進在于:步驟a中的字段設置原則為:適配完成的標準抽象數據包括三類用以生成統計特征的關鍵詞,分別為當前字段的對象描述、類別描述和類別描述處理后的下標值描述,對象描述包括用戶user或商品product,類別描述包括用以進行獨熱處理(one_hot)處理的種類category、用以表示用戶或商品分類的tag,下標值為自然數。
獨熱處理的作用:
獨熱處理通常用于將類別型的字段處理成可參與模型運算的數學特征,比如商品的顏色有“紅”、“綠”、“黃”三種,但是字符串是無法參與模型的數學運算的,也就沒辦法作為可以參與模型訓練和預測的特征,此時通常有兩種處理方式:
(1)方式一,令“紅”=0,“綠”=1,“黃”=2,即通過映射將字符串轉化為可以參與運算的數字,但是這種方式引入了很大的偏差,因為在數學上,0和1的距離是1,0和2的距離是2,但從特征的角度而言,這三者是平等的,并不應該有這種形式的偏見。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳創新奇智科技有限公司,未經深圳創新奇智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910829720.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





