[發(fā)明專利]一種基于偏向性特征的屬性預測方法在審
| 申請?zhí)枺?/td> | 202010990516.0 | 申請日: | 2020-09-19 |
| 公開(公告)號: | CN112132209A | 公開(公告)日: | 2020-12-25 |
| 發(fā)明(設(shè)計)人: | 李玲;李嘉懿;任永亮;賀同路;楊菲;郭學棟 | 申請(專利權(quán))人: | 北京智能工場科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q30/02 |
| 代理公司: | 北京君莫知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11715 | 代理人: | 王凝 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 偏向 特征 屬性 預測 方法 | ||
本發(fā)明提出一種基于偏向性特征的屬性預測方法,包括數(shù)據(jù)獲取階段、數(shù)據(jù)清洗階段、數(shù)據(jù)特征提取階段、模型訓練階段以及模型預測階段。數(shù)據(jù)獲取階段獲取和實體屬性相關(guān)的歷史行為數(shù)據(jù),數(shù)據(jù)特征提取階段從歷史行為數(shù)據(jù)中提取特征數(shù)據(jù),模型訓練階段根據(jù)所述數(shù)據(jù)特征提取階段得到的偏向性特征數(shù)據(jù)作為模型的輸入,通過模型來學習輸入特征和輸出屬性之間的映射關(guān)系;模型預測階段基于所述模型訓練階段得到的最優(yōu)化模型進行屬性預測。所述屬性預測包括基于所述歷史行為數(shù)據(jù)輸入所述最優(yōu)化模型預測用戶的性別以及對應(yīng)的潛在購買目標。本發(fā)明的技術(shù)方案獲取得到的信息覆蓋率和準確率均具備代表性,能夠較好的實現(xiàn)屬性預測。
技術(shù)領(lǐng)域
本發(fā)明屬于大數(shù)據(jù)預測與匹配技術(shù)領(lǐng)域,尤其涉及一種基于偏向性特征的屬性預測方法。
背景技術(shù)
在互聯(lián)網(wǎng)領(lǐng)域中,無論是電商、金融、O2O等各種場景中如何更好的理解描述各個參與的主體,都是極為重要的課題。隨著大數(shù)據(jù)技術(shù)的不斷深入,越來越多企業(yè)都聚焦于使用大數(shù)據(jù)來提升各種商業(yè)行為的效率,如精準營銷、個性化推薦、體驗優(yōu)化等。這些都需要我們能夠更加深入的對各個實體進行細致的刻畫。以用戶實體為例,其屬性包括人口屬性、行為軌跡、興趣愛好、消費偏好等。現(xiàn)有技術(shù)中通過基本資料填寫的方式獲取得到的信息往往覆蓋率和準確率都得不到保證。因此通過機器學習的方法對實體的屬性進行預測顯得尤為重要。
現(xiàn)有技術(shù)中,如專利CN201610486432.7中公開了一種基于安裝包列表的移動用戶性別預測方法,其中在將安裝包列表轉(zhuǎn)化成特征時提到通過結(jié)合性別比例及不同性別下安裝包安裝數(shù)量的比例作為特征值,在模型選擇中使用決策樹來進行最終性別預測。
此外,申請?zhí)枮镃N201611241540的中國發(fā)明專利申請?zhí)岢鲆环N地圖圍欄匹配方法,本方法包括獲取用戶輸入地址信息中的地址關(guān)鍵詞;確定所述地址關(guān)鍵詞所在的位置區(qū)域;獲取所述位置區(qū)域中用戶的行為數(shù)據(jù);通過對所述行為數(shù)據(jù)進行用戶行為偏向性的匹配計算,獲取用戶的基本屬性。通過用戶輸入地址信息確認位置區(qū)域,從而可以獲取所述區(qū)域內(nèi)的行為數(shù)據(jù),和現(xiàn)有技術(shù)中常用的LBS定位相比,不但適用于獲取用戶當前的數(shù)據(jù)信息,還可以獲取用戶歷史的行為數(shù)據(jù);其次,通過對用戶行為數(shù)據(jù)進行偏向性的匹配計算,獲取用戶的基本屬性。相比較現(xiàn)有技術(shù)中根據(jù)用戶行為數(shù)據(jù)中關(guān)鍵詞來判斷用戶的基本屬性相比,提高了準確度。
然而,上述方法有以下不足,第一該方法僅僅局限于解決二分類問題。第二模型選擇上較為固定沒有提供太多模型參考。第三該方法在特征提取方面,提出的特征值提取方法缺少理論依據(jù),忽略了在數(shù)據(jù)中類別的先驗分布對特征值提取的影響。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提出一種基于偏向性特征的屬性預測方法,包括數(shù)據(jù)獲取階段、數(shù)據(jù)清洗階段、數(shù)據(jù)特征提取階段、模型訓練階段以及模型預測階段。數(shù)據(jù)獲取階段獲取和實體屬性相關(guān)的歷史行為數(shù)據(jù),數(shù)據(jù)特征提取階段從歷史行為數(shù)據(jù)中提取特征數(shù)據(jù),模型訓練階段根據(jù)所述數(shù)據(jù)特征提取階段得到的偏向性特征數(shù)據(jù)作為模型的輸入,通過模型來學習輸入特征和輸出屬性之間的映射關(guān)系;模型預測階段基于所述模型訓練階段得到的最優(yōu)化模型進行屬性預測。所述屬性預測包括基于所述歷史行為數(shù)據(jù)輸入所述最優(yōu)化模型預測用戶的性別以及對應(yīng)的潛在購買目標。本發(fā)明的技術(shù)方案獲取得到的信息覆蓋率和準確率均具備代表性,能夠較好的實現(xiàn)屬性預測。
具體而言,本發(fā)明提出的一種基于偏向性特征的屬性預測方法,包括數(shù)據(jù)獲取階段、數(shù)據(jù)清洗階段、數(shù)據(jù)特征提取階段、模型訓練階段以及模型預測階段。
所述數(shù)據(jù)獲取階段,用于獲取和實體屬性相關(guān)的歷史行為數(shù)據(jù),所述實體屬性包括實體的自然屬性和社會屬性;
所述數(shù)據(jù)清洗階段,用于所述數(shù)據(jù)獲取階段獲取的所述歷史行為數(shù)據(jù)進行數(shù)據(jù)清洗操作,數(shù)據(jù)清洗操作包括缺失值處理、重復數(shù)據(jù)處理、數(shù)據(jù)的合法性處理;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京智能工場科技有限公司,未經(jīng)北京智能工場科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010990516.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種離合器檢測用拆裝實驗臺的防護裝置
- 下一篇:組合式迷宮紊流螺旋泵
- 同類專利
- 專利分類





