[發(fā)明專利]特定人群圈定方法、裝置、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010089950.1 | 申請日: | 2020-02-13 |
| 公開(公告)號: | CN111325255B | 公開(公告)日: | 2021-11-19 |
| 發(fā)明(設(shè)計)人: | 趙呈路 | 申請(專利權(quán))人: | 拉扎斯網(wǎng)絡(luò)科技(上海)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08 |
| 代理公司: | 北京智信四方知識產(chǎn)權(quán)代理有限公司 11519 | 代理人: | 鐘文芳;宋海龍 |
| 地址: | 200333 上海*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 特定 人群 圈定 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本公開實施例公開了一種特定人群圈定方法、裝置、電子設(shè)備及存儲介質(zhì)。該方法包括:獲取樣本用戶的訂單數(shù)據(jù),根據(jù)所述訂單數(shù)據(jù)對所述樣本用戶進行標(biāo)記;將標(biāo)記后的所述樣本用戶作為第一樣本用戶集,根據(jù)第一樣本數(shù)據(jù)確定樣本用戶的第一候選特征;對第一樣本用戶集進行多次抽樣,獲得多個樣本用戶子集;根據(jù)樣本用戶子集中所述樣本用戶的所述第一候選特征確定目標(biāo)特征;利用所述目標(biāo)特征,對訂單涉及的用戶進行圈定,獲得需要的特定人群。通過這種方式,從樣本用戶的候選特征中挑選出對圈定特定人群起重要作用的特征作為目標(biāo)特征,使得在正樣本用戶較少,而負(fù)樣本用戶較多的情況下,可以去除干擾特征,進而能夠提高特定人群的圈定準(zhǔn)確率。
技術(shù)領(lǐng)域
本公開涉及計算機技術(shù)領(lǐng)域,具體涉及一種特定人群圈定方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
用戶特征的提取相關(guān)技術(shù)中,通過對用戶屬性和/或用戶行為數(shù)據(jù)等進行統(tǒng)計分析后,基于統(tǒng)計分析結(jié)果標(biāo)定用戶的特征數(shù)據(jù)。用戶的特征數(shù)據(jù)應(yīng)用較為廣泛,例如可以應(yīng)用在機器自學(xué)習(xí)模型的訓(xùn)練過程中,以便訓(xùn)練機器自學(xué)習(xí)模型能夠在線識別用戶的信息。例如,可以通過用戶特征數(shù)據(jù)識別線上平臺用戶的需求,進而為用戶推薦相關(guān)的對象等。但是用戶特征的提取需要大量的正樣本和負(fù)樣本數(shù)據(jù),對于一些正樣本數(shù)據(jù)較少而負(fù)樣本數(shù)據(jù)較多的應(yīng)用場景,利用傳統(tǒng)技術(shù)提取到的特征數(shù)據(jù)噪音較大,進而會使得利用提取出的特征數(shù)據(jù)訓(xùn)練得到的機器自學(xué)習(xí)模型的識別能力不高。因此,針對正樣本數(shù)據(jù)較少的應(yīng)用場景,如何消除特征數(shù)據(jù)中的噪音成為了當(dāng)前需要解決的重要技術(shù)問題之一。
發(fā)明內(nèi)容
本公開實施例提供一種特定人群圈定方法、裝置、電子設(shè)備及存儲介質(zhì)。
第一方面,本公開實施例中提供了一種特定人群圈定方法。
具體的,所述特定人群圈定方法,包括:獲取樣本用戶的訂單數(shù)據(jù),并根據(jù)所述訂單數(shù)據(jù)對所述樣本用戶進行標(biāo)記;將標(biāo)記后的所述樣本用戶作為第一樣本用戶集,并根據(jù)第一樣本數(shù)據(jù)確定所述樣本用戶的第一候選特征;對所述第一樣本用戶集進行多次抽樣,獲得多個樣本用戶子集;根據(jù)所述樣本用戶子集中所述樣本用戶的所述第一候選特征確定目標(biāo)特征;利用所述目標(biāo)特征,對訂單涉及的用戶進行圈定,獲得需要的特定人群。
結(jié)合第一方面,本公開在第一方面的第一種實現(xiàn)方式中,根據(jù)所述樣本用戶子集中所述樣本用戶的所述第一候選特征確定目標(biāo)特征,包括:針對每個樣本用戶子集,從所述樣本用戶的第一候選特征中獲得候選特征組;其中所述候選特征組中包括特征權(quán)重值最大的預(yù)定數(shù)量個第二候選特征權(quán)重值最大的第一預(yù)設(shè)數(shù)量個第二候選特征,且所述特征權(quán)重值通過第一機器學(xué)習(xí)模型確定,且所述特征權(quán)重值用于表征所述第二候選特征在識別目標(biāo)用戶產(chǎn)生目標(biāo)訂單的概率時的重要程度;所述目標(biāo)訂單包括訂單對象數(shù)量超過第三預(yù)設(shè)數(shù)量的訂單;根據(jù)同一第二候選特征在各組候選特征組中的出現(xiàn)次數(shù)從所述第二候選特征確定目標(biāo)特征。
結(jié)合第一方面和/或第一方面的第一種實現(xiàn)方式,本公開在第一方面的第二種實現(xiàn)方式中,所述樣本用戶包括正樣本用戶和負(fù)樣本用戶;所述正樣本用戶包括在預(yù)設(shè)時間段內(nèi)產(chǎn)生的目標(biāo)訂單數(shù)量大于或等于第二預(yù)設(shè)數(shù)量的用戶,所述目標(biāo)訂單中的訂單對象數(shù)量超過第三預(yù)設(shè)數(shù)量;和/或,所述負(fù)樣本用戶包括在預(yù)設(shè)時間段內(nèi)未產(chǎn)生過目標(biāo)訂單且下單頻次大于或等于第一預(yù)設(shè)閾值的用戶。
結(jié)合第一方面、第一方面的第一種實現(xiàn)方式和/或第一方面的第二種實現(xiàn)方式,本公開在第一方面的第三種實現(xiàn)方式中,針對每個樣本用戶子集,從所述樣本用戶的第一候選特征中獲得候選特征組,包括:利用所述樣本用戶子集中所述樣本用戶的第一候選特征訓(xùn)練所述第一機器學(xué)習(xí)模型;根據(jù)訓(xùn)練結(jié)果確定所述第一機器學(xué)習(xí)模型中所述第一候選特征的特征權(quán)重值;將所述特征權(quán)重值最大的第一預(yù)設(shè)數(shù)量個所述第一候選特征確定為所述候選特征組中的第二候選特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于拉扎斯網(wǎng)絡(luò)科技(上海)有限公司,未經(jīng)拉扎斯網(wǎng)絡(luò)科技(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010089950.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





