[發(fā)明專利]基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營銷策略的訓(xùn)練方法有效
申請?zhí)枺?/td> | 202010160913.5 | 申請日: | 2020-03-10 |
公開(公告)號: | CN111339675B | 公開(公告)日: | 2020-12-01 |
發(fā)明(設(shè)計)人: | 俞揚;秦熔均;姜允執(zhí);池飛 | 申請(專利權(quán))人: | 南棲仙策(南京)科技有限公司 |
主分類號: | G06F30/20 | 分類號: | G06F30/20;G06Q30/02;G06N20/00;G06N3/08 |
代理公司: | 南京樂羽知行專利代理事務(wù)所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210038 江蘇省*** | 國省代碼: | 江蘇;32 |
權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 基于 機(jī)器 學(xué)習(xí) 構(gòu)建 模擬 環(huán)境 智能 營銷 策略 訓(xùn)練 方法 | ||
1.一種基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營銷策略的訓(xùn)練方法,其特征在于:包括營銷環(huán)境模擬器構(gòu)造、策略搜索和策略遷移優(yōu)化三個模塊的實現(xiàn);
營銷環(huán)境模擬器構(gòu)造模塊利用真實營銷環(huán)境中的歷史交互數(shù)據(jù),首先以投放者視角,對交互數(shù)據(jù)作狀態(tài)和動作編碼為S和a,其中狀態(tài)S包含平臺反饋的統(tǒng)計信息,動作a為投放行為,并按照時間先后順序,得到對應(yīng)的狀態(tài)-動作序列,即(S0,a0,S1,a1,…,ST)序列;營銷環(huán)境模擬器利用機(jī)器學(xué)習(xí)方法,從編碼并劃分完成的狀態(tài)-動作序列中學(xué)得營銷環(huán)境模型,作為營銷環(huán)境模擬器,該模型輸入當(dāng)前的“狀態(tài)”與執(zhí)行的“動作”,輸出動作執(zhí)行完成后的下一個“狀態(tài)”;
在構(gòu)造營銷環(huán)境模擬器時,使用監(jiān)督學(xué)習(xí)算法獲得營銷環(huán)境模擬器流程為:
首先,對真實營銷環(huán)境中的歷史營銷的交互數(shù)據(jù)進(jìn)行劃分,得到多個(St,at,St+1)元組,St+1為St的下一個狀態(tài);
然后,使用監(jiān)督學(xué)習(xí)方法,將(St,at)作為樣本,St+1作為預(yù)測目標(biāo),從劃分后的數(shù)據(jù)集中訓(xùn)練出模擬器模型;
最后,訓(xùn)練后模型根據(jù)輸入的狀態(tài)-動作對,預(yù)測下一個狀態(tài),作為營銷環(huán)境模擬器使用;
營銷環(huán)境模擬器構(gòu)造完成后,策略搜索模塊利用策略搜索方法,策略優(yōu)化目標(biāo)為最大化下載量與實際花費的比值,并根據(jù)實際場景,建立約束,使策略和營銷環(huán)境模擬器交互,進(jìn)行策略優(yōu)化;為了增強(qiáng)策略的魯棒性,在訓(xùn)練時進(jìn)行噪聲擾動;
將搜索得到的營銷策略部署后,策略遷移優(yōu)化模塊需要收集部署后產(chǎn)生的新的交互數(shù)據(jù),用于對營銷環(huán)境模擬器的進(jìn)一步更新,并重新搜索策略,以提高各個模型的準(zhǔn)確度和適應(yīng)性。
2.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營銷策略的訓(xùn)練方法,其特征在于:采用對抗學(xué)習(xí)技術(shù)緩解監(jiān)督學(xué)習(xí)帶來的復(fù)合誤差的影響,
具體實施過程如下:
首先,建立若干神經(jīng)網(wǎng)絡(luò)作為投放策略模型和營銷環(huán)境模型;
其次,建立一個神經(jīng)網(wǎng)絡(luò)作為判別器,用于判別某條生成(S0,a0,S1,a1,…,Sn)軌跡序列的可信度;
然后,通過投放策略模型和營銷環(huán)境模型進(jìn)行投放者和營銷環(huán)境交互,生成一批(S0,a0,S1,a1,…,Sn)軌跡序列,用生成的(S0,a0,S1,a1,…,Sn)軌跡序列和真實數(shù)據(jù)中的(S0,a0,S1,a1,…,Sn)軌跡序列更新判別器,將真實軌跡序列數(shù)據(jù)集記為D,訓(xùn)練過程中的生成的軌跡序列數(shù)據(jù)集記為D’,更新目標(biāo)如下:
其中f為判別器,f(τ),f(τ′)分別表示判別器在單條真實軌跡和生成軌跡上輸出的可信度;
再次,用更新后的判別器給生成的(S0,a0,S1,a1,…,Sn)軌跡序列打分,即輸出可信度,作為該條軌跡的期望獎勵,用強(qiáng)化學(xué)習(xí)算法更新營銷投放策略和營銷環(huán)境模型;
然后,重復(fù)以上兩步,直到達(dá)到最大循環(huán)次數(shù);
最后,將通過以上過程訓(xùn)練完成后的營銷環(huán)境模型作為營銷環(huán)境模擬器使用。
3.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營銷策略的訓(xùn)練方法,其特征在于:完成營銷模擬器構(gòu)建后,使用演化學(xué)習(xí)算法進(jìn)行策略搜索,具體步驟為:
(1)建立多個神經(jīng)網(wǎng)絡(luò)作為投放策略模型種群;
(2)選擇一個投放策略和營銷環(huán)境模擬器交互,即先由營銷環(huán)境模擬器采樣或生成一個初始狀態(tài),投放策略以該初始狀態(tài)作為輸入,輸出投放動作;營銷環(huán)境模擬器輸入當(dāng)前的狀態(tài)和投放動作,返回下一個狀態(tài),投放策略再根據(jù)當(dāng)前狀態(tài),輸出投放動作,直到達(dá)到外部終止條件;重復(fù)M次上述交互過程,得到M條軌跡,每條軌跡為(S0,a0,S1,a1,…,Sn)序列,并根據(jù)狀態(tài)計算出獎勵信息,并在每個觀測狀態(tài)上加高斯噪聲再返回給投放策略作為輸入;
(3)為(2)中每條軌跡計算該條軌跡的期望獎勵,并計算所有的期望獎勵的平均值,作為當(dāng)前選中的投放策略的適應(yīng)度;
(4)重復(fù)(2)(3),直到種群里所有策略模型都有適應(yīng)度;
(5)使用演化算法對策略模型進(jìn)行擾動,生成新的種群,回到(2),直到達(dá)到最大迭代次數(shù);
(6)使用當(dāng)前種群中適應(yīng)度最高的策略模型作為策略搜索結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南棲仙策(南京)科技有限公司,未經(jīng)南棲仙策(南京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010160913.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 構(gòu)建墊、實體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法