[發明專利]高維特征的表示學習方法、裝置、設備以及存儲介質在審
| 申請號: | 202011072713.0 | 申請日: | 2020-10-09 |
| 公開(公告)號: | CN112149839A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 劉晨暉;鐘輝強;徐思琪;陳亮輝;方軍 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 表示 學習方法 裝置 設備 以及 存儲 介質 | ||
本申請實施例公開了高維特征的表示學習方法、裝置、設備以及存儲介質,涉及機器學習技術領域。該方法的一具體實施方式包括:獲取基于用戶數據確定的用戶高維特征,用戶高維特征包括用戶行為特征和/或用戶屬性特征;根據用戶高維特征中的稀疏特征的類別,確定用戶稀疏特征向量;對用戶高維特征中的連續向量特征進行拼接,得到用戶連續特征向量;將用戶稀疏特征向量和用戶連續特征向量輸入至預先訓練完成的深度推薦模型,得到用戶高維特征的用戶表示學習向量;采用高維特征的用戶表示學習向量,訓練針對用戶數據的機器學習模型,從而實現高維特征的表示學習,并大幅度減少高維特征信息的丟失,提升機器學習模型的分類效果。
技術領域
本申請涉及計算機技術領域,具體涉及機器學習技術領域,尤其涉及高維特征的表示學習方法、裝置、設備以及存儲介質。
背景技術
通常,未經清洗的用戶原始數據特征普遍都有高維、稀疏的性質。例如,在推薦場景中,用戶數據的特征維度高達幾十萬,甚至是幾百萬,而單一用戶在這幾十萬維度的特征中,平均只有幾千維是有標記的,占總特征維度不到百分之一。用戶高維特征中的稀疏特征容易導致維數災難,增加模型訓練的難度。
發明內容
為了解決上述背景技術部分提到的一個或多個技術問題,本申請實施例提供了高維特征的表示學習方法、裝置、設備以及存儲介質。
第一方面,本申請實施例提供了高維特征的表示學習方法,包括:獲取基于用戶數據確定的用戶高維特征,所述用戶高維特征包括用戶行為特征和/或用戶屬性特征;根據所述用戶高維特征中的稀疏特征的類別,確定用戶稀疏特征向量;對所述用戶高維特征中的連續向量特征進行拼接,得到用戶連續特征向量;將所述用戶稀疏特征向量和所述用戶連續特征向量輸入至預先訓練完成的深度推薦模型,得到所述用戶高維特征的用戶表示學習向量;采用所述高維特征的用戶表示學習向量,訓練針對用戶數據的機器學習模型。
第二方面,本申請實施例提供了高維特征的表示學習裝置,包括:獲取模塊,被配置為獲取基于用戶數據確定的用戶高維特征,所述用戶高維特征包括用戶行為特征和/或用戶屬性特征;稀疏特征向量確定模塊,被配置根據所述用戶高維特征中的稀疏特征的類別,確定用戶稀疏特征向量;連續特征向量確定模塊,被配置對所述用戶高維特征中的連續向量特征進行拼接,得到用戶連續特征向量;表示學習向量表征模塊,被配置為將所述用戶稀疏特征向量和所述用戶連續特征向量輸入至預先訓練完成的深度推薦模型,得到所述用戶高維特征的用戶表示學習向量;機器學習模型訓練模塊,被配置為采用所述高維特征的用戶表示學習向量,訓練針對用戶數據的機器學習模型。
第三方面,本申請實施例提出了一種電子設備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執行的指令,指令被至少一個處理器執行,以使至少一個處理器能夠執行如第一方面中任一實現方式描述的方法。
第四方面,本申請實施例提出了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,計算機指令用于使計算機執行如第一方面中任一實現方式描述的方法。
本申請實施例提供的高維特征的表示學習方法、裝置、設備以及存儲介質,首先獲取基于用戶數據確定的用戶高維特征,所述用戶高維特征包括用戶行為特征和/或用戶屬性特征;之后根據所述用戶高維特征中的稀疏特征的類別,確定用戶稀疏特征向量;而后對所述用戶高維特征中的連續向量特征進行拼接,得到用戶連續特征向量;然后對高維特征中的連續向量特征進行拼接,得到連續特征向量;再然后將所述用戶稀疏特征向量和所述用戶連續特征向量輸入至預先訓練完成的深度推薦模型,得到所述用戶高維特征的用戶表示學習向量;最后采用所述高維特征的用戶表示學習向量,訓練針對用戶數據的機器學習模型,從而實現對高維特征的表示學習向量的學習,并大幅度減少高維特征信息的丟失,提升機器學習模型的分類效果。
應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011072713.0/2.html,轉載請聲明來源鉆瓜專利網。





