[發明專利]一種通用特征提取模型構建方法、系統及裝置有效
| 申請號: | 202011182994.5 | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112215238B | 公開(公告)日: | 2022-06-07 |
| 發明(設計)人: | 謝文浩;汲小溪;王維強 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06V10/30 | 分類號: | G06V10/30;G06V10/40;G06V10/774;G06K9/62 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 周嗣勇 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通用 特征 提取 模型 構建 方法 系統 裝置 | ||
本說明書公開了一種通用特征提取模型構建方法、系統及裝置。該方法包括:服務端確定所有原始數據中所包含的全部特征類型;針對所獲取的全部特征類型構建去噪模型;服務端將所確定的全部特征類型、以及去噪模型下發到每個終端;每個終端根據全部特征類型,確定本地原始數據的缺失特征類型,并基于缺失值填充算法對本地原始數據進行填充,將每條原始數據擴展為包含全部特征類型特征值的標準數據;每個終端對標準數據進行加噪處理,得到訓練樣本集,訓練樣本集中每條訓練樣本以加噪后的標準數據為特征值,以加噪前的標準數據為標簽值;服務端與系統中一個或多個終端聯合訓練去噪模型,利用訓練后的去噪模型隱藏層信息構建通用特征提取模型。
技術領域
本說明書實施例涉及模型訓練領域,尤其涉及一種通用特征提取模型構建方法、系統及裝置。
背景技術
在用戶使用終端時,終端可以采集到許多與用戶操作相關的數據,例如,操作對象、操作行為、操作時間或操作頻率等等,可以將用戶在一段時間內操作相關的數據作為一個整體,看作是體現用戶操作特征的原始數據,一條原始數據中可以包含了對應于一個或多個操作特征類型的特征值,例如,對應于特征“操作對象”的特征值、對應于特征“操作行為”的特征值,等等。
終端針對一個用戶所采集到的原始數據可以應用在多種場景中。例如,廣告投放、頁面推送以及風險防控等。舉一個具體的例子,終端1針對一個用戶采集到對應于操作對象的特征值為“游戲小程序”,也就是說,該用戶在終端1上只對游戲小程序進行過操作,進而可以確定該用戶偏好游戲,故可以針對性地向該用戶推送游戲相關的廣告。
但是,不同終端所采集的原始數據中包含的操作特征類型可能并不相同。例如,終端1采集“操作對象”和“操作行為”兩種特征的特征值作為原始數據,而終端2采集“操作行為”和“操作時間”兩種特征的特征值作為原始數據。
由于不同終端所采集的原始數據包含的特征不同,需要針對包含不同類型特征值的原始數據進行專門的分析,分析效率較低,因此,為了便于分析,亟需從原始數據中提取出對應于通用特征的特征值進行統一的分析。
發明內容
為了解決上述問題,本說明書提供了以下技術方案。
一種通用特征提取模型構建方法,應用于包含服務端和至少2個終端的系統,包括:
服務端根據多個終端提供的原始數據,確定所有原始數據中所包含的全部特征類型;針對所獲取的全部特征類型構建去噪模型;所述去噪模型為深度學習模型;
服務端將所確定的全部特征類型、以及所述去噪模型下發到每個終端;
每個終端根據所述全部特征類型,確定本地原始數據的缺失特征類型,并基于預設的缺失值填充算法對本地原始數據進行填充,將每條原始數據擴展為包含全部特征類型特征值的標準數據;
每個終端對標準數據進行加噪處理,得到訓練樣本集,所述訓練樣本集中每條訓練樣本以加噪后的標準數據為特征值,以加噪前的標準數據為標簽值;
服務端與所述系統中一個或多個終端聯合訓練所述去噪模型,利用訓練后的去噪模型隱藏層信息構建通用特征提取模型。
一種通用特征提取模型構建方法,包括:
確定多條原始數據中所包含的全部特征類型;針對所確定的全部特征類型構建去噪模型;所述去噪模型為深度學習模型;
根據所述全部特征類型,確定每條原始數據的缺失特征類型,并基于預設的缺失值填充算法對該條原始數據進行填充,將每條原始數據擴展為包含所述全部特征類型特征值的標準數據;
對標準數據進行加噪處理,得到訓練樣本集,所述訓練樣本集中每條訓練樣本以加噪后的標準數據為特征值,以加噪前的標準數據為標簽值;
利用所述訓練樣本集訓練所述去噪模型,利用訓練后的去噪模型隱藏層信息構建通用特征提取模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011182994.5/2.html,轉載請聲明來源鉆瓜專利網。





