[發明專利]特征生成方法和裝置、電子設備和存儲介質在審
| 申請號: | 202010841706.6 | 申請日: | 2020-08-20 |
| 公開(公告)號: | CN111967611A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 劉思明;朱坤廣;李富武;陳迪 | 申請(專利權)人: | 貝殼技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F16/2455;G06F16/22;G06F16/28;G06F16/13;G06F16/182 |
| 代理公司: | 北京思源智匯知識產權代理有限公司 11657 | 代理人: | 毛麗琴 |
| 地址: | 300457 天津市濱海新區經濟技術開發*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征 生成 方法 裝置 電子設備 存儲 介質 | ||
本公開實施例公開了一種特征生成方法和裝置、電子設備和存儲介質,其中,方法包括:獲取用戶信息數據庫中用戶的基礎信息和行為信息;采用文本到向量的編碼方式,分別對獲取的各項所述基礎信息進行編碼,得到至少一個基礎離散特征;分別基于預先配置的聚合方式信息對相應的所述行為信息進行聚合處理,得到多個基礎聚合特征;分別基于預先配置的計算方式信息對相應的所述基礎聚合特征進行計算處理,得到至少一個組合特征;將所述至少一個基礎離散特征、所述多個基礎聚合特征和所述至少一個組合特征、以及預先設置的至少一類別標簽進行對應存儲,以用于訓練機器學習模型。本公開實施例可以提高特征生成效率和機器學習模型的訓練效果。
技術領域
本公開涉及計算機技術,尤其是一種特征生成方法和裝置、電子設備和存儲介質。
背景技術
機器學習是人工智能及模式識別領域的共同研究熱點,其理論和方法已被廣泛應用于解決工程應用和科學領域的復雜問題。機器學習不僅在基于知識的系統中得到應用,而且在自然語言理解(NLU)、非單調推理、機器視覺、模式識別等許多領域也得到了廣泛應用。一個系統是否具有學習能力已成為是否具有“智能”的一個標志。機器學習的研究主要分為兩類研究方向:第一類是傳統機器學習的研究,該類研究主要是研究學習機制,注重探索模擬人的學習機制;第二類是大數據環境下機器學習的研究,該類研究主要是研究如何有效利用信息,注重從巨量數據中獲取隱藏的、有效的、可理解的知識。
在目的的大數據時代,人們希望使用機器學習技術從海量數據中挖掘價值,這就需要先利用歷史數據訓練機器學習模型。訓練機器學習模型的主要過程如下:由歷史數據獲取用于輸入機器學習模型的輸入特征,由機器學習模型輸出相應的輸出特征;基于機器學習算法,基于輸入特征和輸出特征訓練機器學習模型。在機器學習模型訓練完成后,便可以利用該機器學習模型對輸入數據預測輸出數據。
在實現本公開的過程中,本公開的發明人通過研究發現,現有技術中,需要通過用戶從歷史數據中手工篩選訓練當前機器學習模型所需要的數據,并對其進行手工處理,來得到輸入特征,這就至少存在以下問題:由于需要用戶手工從歷史數據中逐一進行數據篩選和處理,操作繁瑣,處理效率較低,需要花費大量時間,并且,所需處理的數據量龐大極易出錯,這就會影響后續機器學習模型的訓練效果。
發明內容
本公開實施例提供一種特征生成方法和裝置、電子設備和存儲介質,以提高特征生成效率和機器學習模型的訓練效果。
本公開實施例的一個方面,提供的一種特征生成方法,包括:
獲取用戶信息數據庫中用戶的基礎信息和行為信息;其中,所述基礎信息包括:用于表示用戶至少一項屬性的信息;所述行為信息包括:用于表示用戶線上和/或線下各項行為的信息;
采用文本到向量的編碼方式,分別對獲取的各項所述基礎信息進行編碼,得到至少一個基礎離散特征;分別基于預先配置的聚合方式信息對相應的所述行為信息進行聚合處理,得到多個基礎聚合特征;
分別基于預先配置的計算方式信息對相應的所述基礎聚合特征進行計算處理,得到至少一個組合特征;
將所述至少一個基礎離散特征、所述多個基礎聚合特征和所述至少一個組合特征、以及預先針對所述用戶的基礎信息和行為信息設置的至少一類別標簽進行對應存儲,以用于訓練機器學習模型。
可選地,在基于本公開上述任一實施例的方法中,所述行為信息包括以下任意一項或多項:頁面瀏覽信息,頁面停留時長,搜索信息,推薦信息,分享關注信息,業務委托信息,業務帶看信息,業務成交信息。
可選地,在基于本公開上述任一實施例的方法中,所述采用文本到向量的編碼方式,分別對獲取的各項所述基礎信息進行編碼,包括:
采用獨熱One-Hot編碼方式,分別對獲取的各項所述基礎信息進行編碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貝殼技術有限公司,未經貝殼技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010841706.6/2.html,轉載請聲明來源鉆瓜專利網。





