[發(fā)明專利]基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營(yíng)銷策略的訓(xùn)練方法有效

申請(qǐng)?zhí)枺?/td>	202010160913.5	申請(qǐng)日：	2020-03-10
公開（公告）號(hào)：	CN111339675B	公開（公告）日：	2020-12-01
發(fā)明（設(shè)計(jì)）人：	俞揚(yáng);秦熔均;姜允執(zhí);池飛	申請(qǐng)（專利權(quán)）人：	南棲仙策（南京）科技有限公司
主分類號(hào)：	G06F30/20	分類號(hào)：	G06F30/20;G06Q30/02;G06N20/00;G06N3/08
代理公司：	南京樂羽知行專利代理事務(wù)所(普通合伙) 32326	代理人：	李玉平
地址：	210038 江蘇省***	國(guó)省代碼：	江蘇;32
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于機(jī)器學(xué)習(xí) 構(gòu)建模擬環(huán)境智能營(yíng)銷策略訓(xùn)練方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營(yíng)銷策略的訓(xùn)練方法，其特征在于：包括營(yíng)銷環(huán)境模擬器構(gòu)造、策略搜索和策略遷移優(yōu)化三個(gè)模塊的實(shí)現(xiàn)；

營(yíng)銷環(huán)境模擬器構(gòu)造模塊利用真實(shí)營(yíng)銷環(huán)境中的歷史交互數(shù)據(jù)，首先以投放者視角，對(duì)交互數(shù)據(jù)作狀態(tài)和動(dòng)作編碼為S和a，其中狀態(tài)S包含平臺(tái)反饋的統(tǒng)計(jì)信息，動(dòng)作a為投放行為，并按照時(shí)間先后順序，得到對(duì)應(yīng)的狀態(tài)-動(dòng)作序列，即(S0,a0,S1,a1,…,ST)序列；營(yíng)銷環(huán)境模擬器利用機(jī)器學(xué)習(xí)方法，從編碼并劃分完成的狀態(tài)-動(dòng)作序列中學(xué)得營(yíng)銷環(huán)境模型，作為營(yíng)銷環(huán)境模擬器，該模型輸入當(dāng)前的“狀態(tài)”與執(zhí)行的“動(dòng)作”，輸出動(dòng)作執(zhí)行完成后的下一個(gè)“狀態(tài)”；

在構(gòu)造營(yíng)銷環(huán)境模擬器時(shí)，使用監(jiān)督學(xué)習(xí)算法獲得營(yíng)銷環(huán)境模擬器流程為：

首先，對(duì)真實(shí)營(yíng)銷環(huán)境中的歷史營(yíng)銷的交互數(shù)據(jù)進(jìn)行劃分，得到多個(gè)(S_t,a_t,S_t+1)元組，S_t+1為S_t的下一個(gè)狀態(tài)；

然后，使用監(jiān)督學(xué)習(xí)方法，將(S_t,a_t)作為樣本，S_t+1作為預(yù)測(cè)目標(biāo)，從劃分后的數(shù)據(jù)集中訓(xùn)練出模擬器模型；

最后，訓(xùn)練后模型根據(jù)輸入的狀態(tài)-動(dòng)作對(duì)，預(yù)測(cè)下一個(gè)狀態(tài)，作為營(yíng)銷環(huán)境模擬器使用；

營(yíng)銷環(huán)境模擬器構(gòu)造完成后，策略搜索模塊利用策略搜索方法，策略優(yōu)化目標(biāo)為最大化下載量與實(shí)際花費(fèi)的比值，并根據(jù)實(shí)際場(chǎng)景，建立約束，使策略和營(yíng)銷環(huán)境模擬器交互，進(jìn)行策略優(yōu)化；為了增強(qiáng)策略的魯棒性，在訓(xùn)練時(shí)進(jìn)行噪聲擾動(dòng)；

將搜索得到的營(yíng)銷策略部署后，策略遷移優(yōu)化模塊需要收集部署后產(chǎn)生的新的交互數(shù)據(jù)，用于對(duì)營(yíng)銷環(huán)境模擬器的進(jìn)一步更新，并重新搜索策略，以提高各個(gè)模型的準(zhǔn)確度和適應(yīng)性。

2.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營(yíng)銷策略的訓(xùn)練方法，其特征在于：采用對(duì)抗學(xué)習(xí)技術(shù)緩解監(jiān)督學(xué)習(xí)帶來的復(fù)合誤差的影響，

具體實(shí)施過程如下：

首先，建立若干神經(jīng)網(wǎng)絡(luò)作為投放策略模型和營(yíng)銷環(huán)境模型；

其次，建立一個(gè)神經(jīng)網(wǎng)絡(luò)作為判別器，用于判別某條生成(S0,a0,S1,a1,…,Sn)軌跡序列的可信度；

然后，通過投放策略模型和營(yíng)銷環(huán)境模型進(jìn)行投放者和營(yíng)銷環(huán)境交互，生成一批(S0,a0,S1,a1,…,Sn)軌跡序列，用生成的(S0,a0,S1,a1,…,Sn)軌跡序列和真實(shí)數(shù)據(jù)中的(S0,a0,S1,a1,…,Sn)軌跡序列更新判別器，將真實(shí)軌跡序列數(shù)據(jù)集記為D，訓(xùn)練過程中的生成的軌跡序列數(shù)據(jù)集記為D’，更新目標(biāo)如下：

其中f為判別器，f(τ),f(τ′)分別表示判別器在單條真實(shí)軌跡和生成軌跡上輸出的可信度；

再次，用更新后的判別器給生成的(S0,a0,S1,a1,…,Sn)軌跡序列打分，即輸出可信度，作為該條軌跡的期望獎(jiǎng)勵(lì)，用強(qiáng)化學(xué)習(xí)算法更新營(yíng)銷投放策略和營(yíng)銷環(huán)境模型；

然后，重復(fù)以上兩步，直到達(dá)到最大循環(huán)次數(shù)；

最后，將通過以上過程訓(xùn)練完成后的營(yíng)銷環(huán)境模型作為營(yíng)銷環(huán)境模擬器使用。

3.如權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)構(gòu)建模擬環(huán)境的智能營(yíng)銷策略的訓(xùn)練方法，其特征在于：完成營(yíng)銷模擬器構(gòu)建后，使用演化學(xué)習(xí)算法進(jìn)行策略搜索，具體步驟為：

(1)建立多個(gè)神經(jīng)網(wǎng)絡(luò)作為投放策略模型種群；

(2)選擇一個(gè)投放策略和營(yíng)銷環(huán)境模擬器交互，即先由營(yíng)銷環(huán)境模擬器采樣或生成一個(gè)初始狀態(tài)，投放策略以該初始狀態(tài)作為輸入，輸出投放動(dòng)作；營(yíng)銷環(huán)境模擬器輸入當(dāng)前的狀態(tài)和投放動(dòng)作，返回下一個(gè)狀態(tài)，投放策略再根據(jù)當(dāng)前狀態(tài)，輸出投放動(dòng)作，直到達(dá)到外部終止條件；重復(fù)M次上述交互過程，得到M條軌跡，每條軌跡為(S0,a0,S1,a1,…,Sn)序列，并根據(jù)狀態(tài)計(jì)算出獎(jiǎng)勵(lì)信息，并在每個(gè)觀測(cè)狀態(tài)上加高斯噪聲再返回給投放策略作為輸入；

(3)為(2)中每條軌跡計(jì)算該條軌跡的期望獎(jiǎng)勵(lì)，并計(jì)算所有的期望獎(jiǎng)勵(lì)的平均值，作為當(dāng)前選中的投放策略的適應(yīng)度；

(4)重復(fù)(2)(3)，直到種群里所有策略模型都有適應(yīng)度；

(5)使用演化算法對(duì)策略模型進(jìn)行擾動(dòng)，生成新的種群，回到(2)，直到達(dá)到最大迭代次數(shù)；

(6)使用當(dāng)前種群中適應(yīng)度最高的策略模型作為策略搜索結(jié)果。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南棲仙策（南京）科技有限公司，未經(jīng)南棲仙策（南京）科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010160913.5/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：一種防水防誤拔的醫(yī)療用插座及插頭
下一篇：一種鋰硫電池功能性隔層的制備方法

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】