[發(fā)明專利]基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營(yíng)銷策略的訓(xùn)練方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010160913.5 | 申請(qǐng)日: | 2020-03-10 |
| 公開(公告)號(hào): | CN111339675B | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計(jì))人: | 俞揚(yáng);秦熔均;姜允執(zhí);池飛 | 申請(qǐng)(專利權(quán))人: | 南棲仙策(南京)科技有限公司 |
| 主分類號(hào): | G06F30/20 | 分類號(hào): | G06F30/20;G06Q30/02;G06N20/00;G06N3/08 |
| 代理公司: | 南京樂羽知行專利代理事務(wù)所(普通合伙) 32326 | 代理人: | 李玉平 |
| 地址: | 210038 江蘇省*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 機(jī)器 學(xué)習(xí) 構(gòu)建 模擬 環(huán)境 智能 營(yíng)銷 策略 訓(xùn)練 方法 | ||
1.一種基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營(yíng)銷策略的訓(xùn)練方法,其特征在于:包括營(yíng)銷環(huán)境模擬器構(gòu)造、策略搜索和策略遷移優(yōu)化三個(gè)模塊的實(shí)現(xiàn);
營(yíng)銷環(huán)境模擬器構(gòu)造模塊利用真實(shí)營(yíng)銷環(huán)境中的歷史交互數(shù)據(jù),首先以投放者視角,對(duì)交互數(shù)據(jù)作狀態(tài)和動(dòng)作編碼為S和a,其中狀態(tài)S包含平臺(tái)反饋的統(tǒng)計(jì)信息,動(dòng)作a為投放行為,并按照時(shí)間先后順序,得到對(duì)應(yīng)的狀態(tài)-動(dòng)作序列,即(S0,a0,S1,a1,…,ST)序列;營(yíng)銷環(huán)境模擬器利用機(jī)器學(xué)習(xí)方法,從編碼并劃分完成的狀態(tài)-動(dòng)作序列中學(xué)得營(yíng)銷環(huán)境模型,作為營(yíng)銷環(huán)境模擬器,該模型輸入當(dāng)前的“狀態(tài)”與執(zhí)行的“動(dòng)作”,輸出動(dòng)作執(zhí)行完成后的下一個(gè)“狀態(tài)”;
在構(gòu)造營(yíng)銷環(huán)境模擬器時(shí),使用監(jiān)督學(xué)習(xí)算法獲得營(yíng)銷環(huán)境模擬器流程為:
首先,對(duì)真實(shí)營(yíng)銷環(huán)境中的歷史營(yíng)銷的交互數(shù)據(jù)進(jìn)行劃分,得到多個(gè)(St,at,St+1)元組,St+1為St的下一個(gè)狀態(tài);
然后,使用監(jiān)督學(xué)習(xí)方法,將(St,at)作為樣本,St+1作為預(yù)測(cè)目標(biāo),從劃分后的數(shù)據(jù)集中訓(xùn)練出模擬器模型;
最后,訓(xùn)練后模型根據(jù)輸入的狀態(tài)-動(dòng)作對(duì),預(yù)測(cè)下一個(gè)狀態(tài),作為營(yíng)銷環(huán)境模擬器使用;
營(yíng)銷環(huán)境模擬器構(gòu)造完成后,策略搜索模塊利用策略搜索方法,策略優(yōu)化目標(biāo)為最大化下載量與實(shí)際花費(fèi)的比值,并根據(jù)實(shí)際場(chǎng)景,建立約束,使策略和營(yíng)銷環(huán)境模擬器交互,進(jìn)行策略優(yōu)化;為了增強(qiáng)策略的魯棒性,在訓(xùn)練時(shí)進(jìn)行噪聲擾動(dòng);
將搜索得到的營(yíng)銷策略部署后,策略遷移優(yōu)化模塊需要收集部署后產(chǎn)生的新的交互數(shù)據(jù),用于對(duì)營(yíng)銷環(huán)境模擬器的進(jìn)一步更新,并重新搜索策略,以提高各個(gè)模型的準(zhǔn)確度和適應(yīng)性。
2.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營(yíng)銷策略的訓(xùn)練方法,其特征在于:采用對(duì)抗學(xué)習(xí)技術(shù)緩解監(jiān)督學(xué)習(xí)帶來的復(fù)合誤差的影響,
具體實(shí)施過程如下:
首先,建立若干神經(jīng)網(wǎng)絡(luò)作為投放策略模型和營(yíng)銷環(huán)境模型;
其次,建立一個(gè)神經(jīng)網(wǎng)絡(luò)作為判別器,用于判別某條生成(S0,a0,S1,a1,…,Sn)軌跡序列的可信度;
然后,通過投放策略模型和營(yíng)銷環(huán)境模型進(jìn)行投放者和營(yíng)銷環(huán)境交互,生成一批(S0,a0,S1,a1,…,Sn)軌跡序列,用生成的(S0,a0,S1,a1,…,Sn)軌跡序列和真實(shí)數(shù)據(jù)中的(S0,a0,S1,a1,…,Sn)軌跡序列更新判別器,將真實(shí)軌跡序列數(shù)據(jù)集記為D,訓(xùn)練過程中的生成的軌跡序列數(shù)據(jù)集記為D’,更新目標(biāo)如下:
其中f為判別器,f(τ),f(τ′)分別表示判別器在單條真實(shí)軌跡和生成軌跡上輸出的可信度;
再次,用更新后的判別器給生成的(S0,a0,S1,a1,…,Sn)軌跡序列打分,即輸出可信度,作為該條軌跡的期望獎(jiǎng)勵(lì),用強(qiáng)化學(xué)習(xí)算法更新營(yíng)銷投放策略和營(yíng)銷環(huán)境模型;
然后,重復(fù)以上兩步,直到達(dá)到最大循環(huán)次數(shù);
最后,將通過以上過程訓(xùn)練完成后的營(yíng)銷環(huán)境模型作為營(yíng)銷環(huán)境模擬器使用。
3.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營(yíng)銷策略的訓(xùn)練方法,其特征在于:完成營(yíng)銷模擬器構(gòu)建后,使用演化學(xué)習(xí)算法進(jìn)行策略搜索,具體步驟為:
(1)建立多個(gè)神經(jīng)網(wǎng)絡(luò)作為投放策略模型種群;
(2)選擇一個(gè)投放策略和營(yíng)銷環(huán)境模擬器交互,即先由營(yíng)銷環(huán)境模擬器采樣或生成一個(gè)初始狀態(tài),投放策略以該初始狀態(tài)作為輸入,輸出投放動(dòng)作;營(yíng)銷環(huán)境模擬器輸入當(dāng)前的狀態(tài)和投放動(dòng)作,返回下一個(gè)狀態(tài),投放策略再根據(jù)當(dāng)前狀態(tài),輸出投放動(dòng)作,直到達(dá)到外部終止條件;重復(fù)M次上述交互過程,得到M條軌跡,每條軌跡為(S0,a0,S1,a1,…,Sn)序列,并根據(jù)狀態(tài)計(jì)算出獎(jiǎng)勵(lì)信息,并在每個(gè)觀測(cè)狀態(tài)上加高斯噪聲再返回給投放策略作為輸入;
(3)為(2)中每條軌跡計(jì)算該條軌跡的期望獎(jiǎng)勵(lì),并計(jì)算所有的期望獎(jiǎng)勵(lì)的平均值,作為當(dāng)前選中的投放策略的適應(yīng)度;
(4)重復(fù)(2)(3),直到種群里所有策略模型都有適應(yīng)度;
(5)使用演化算法對(duì)策略模型進(jìn)行擾動(dòng),生成新的種群,回到(2),直到達(dá)到最大迭代次數(shù);
(6)使用當(dāng)前種群中適應(yīng)度最高的策略模型作為策略搜索結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南棲仙策(南京)科技有限公司,未經(jīng)南棲仙策(南京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010160913.5/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法





