[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的規(guī)則提取方法及應(yīng)用有效
| 申請(qǐng)?zhí)枺?/td> | 202010071247.8 | 申請(qǐng)日: | 2020-01-21 |
| 公開(公告)號(hào): | CN111325336B | 公開(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計(jì))人: | 陳華鈞;汪寒 | 申請(qǐng)(專利權(quán))人: | 浙江大學(xué) |
| 主分類號(hào): | G06N3/08 | 分類號(hào): | G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 杭州天勤知識(shí)產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310013 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 規(guī)則 提取 方法 應(yīng)用 | ||
1.一種基于強(qiáng)化學(xué)習(xí)的商品場(chǎng)景掛載方法,其特征在于,該方法用于商品規(guī)則的提取,應(yīng)用在電商實(shí)際應(yīng)用中,在電商實(shí)際應(yīng)用中,每個(gè)商品都會(huì)被掛載到若干個(gè)場(chǎng)景,以圖結(jié)構(gòu)中的節(jié)點(diǎn)形式存在,商品由結(jié)構(gòu)化信息表示,以鍵值對(duì)PV形式存在,生成的規(guī)則中Body部分為PV對(duì),Head部分為單個(gè)場(chǎng)景,規(guī)則的作用包括掛載新的商品以及為已有的商品新增掛載場(chǎng)景,具體包括:
基于強(qiáng)化學(xué)習(xí)構(gòu)建規(guī)則知識(shí)學(xué)習(xí)模型,所述規(guī)則知識(shí)學(xué)習(xí)模型包括用于提取規(guī)則的智能體和用于計(jì)算規(guī)則的分類結(jié)果的分類網(wǎng)絡(luò);
所述智能體包括輸入模塊,記憶模塊以及動(dòng)作模塊,其中:
所述輸入模塊包括屬性項(xiàng)嵌入層、屬性值嵌入層、及場(chǎng)景嵌入層,屬性項(xiàng)嵌入層和屬性值嵌入層拼接起來(lái)當(dāng)作當(dāng)前PV的嵌入向量,其中,P是one-hot的屬性項(xiàng)向量輸入進(jìn)屬性項(xiàng)嵌入層的矩陣后的輸出,V是one-hot的屬性值向量輸入進(jìn)屬性值嵌入層的矩陣后的輸出,在輸入進(jìn)智能體前,將當(dāng)前的商品的P和V拼接在一起作為單個(gè)PV的嵌入向量;
所述記憶模塊采用雙向LSTM網(wǎng)絡(luò),當(dāng)前商品PV的嵌入向量作為記憶模塊的輸入,利用LSTM網(wǎng)絡(luò)的記憶功能,讓每個(gè)時(shí)間步輸出的隱狀態(tài)向量都能包含上下文的信息;
所述動(dòng)作模塊包括單向LSTM和全連接層,單向LSTM的作用是讓動(dòng)作在當(dāng)前時(shí)間步t時(shí)刻輸出動(dòng)作時(shí),能夠考慮到0到t-1時(shí)刻的信息,用公式表達(dá)如下:
h′t=LSTM([ht;at-1])
其中,at-1是上一個(gè)時(shí)間步輸出的動(dòng)作的one-hot表示,這里將at-1與記憶模塊在t時(shí)間步的輸出ht拼接起來(lái)作為動(dòng)作模塊的輸入;
全連接層的作用則是將h′t映射到場(chǎng)景嵌入向量L的特征空間,再與L進(jìn)行點(diǎn)乘求和,用公式表達(dá)如下:
pt=sigmoid(f(ht′)*L)
輸出的pt即動(dòng)作模塊在時(shí)間步t輸出動(dòng)作1的概率,f(·)表示全連接層;
智能體在接受到每個(gè)商品PV對(duì)時(shí),都會(huì)輸出一個(gè)動(dòng)作,取值為0或1;
將輸出動(dòng)作為1的商品PV篩選出來(lái),形成一個(gè)新的PV子序列;
所述分類網(wǎng)絡(luò)采用FastText網(wǎng)絡(luò),將新的PV子序列輸入進(jìn)對(duì)應(yīng)的嵌入層,得到PV向量,然后對(duì)PV向量進(jìn)行求均值得到PV子序列的特征向量hm,具體表達(dá)式為:
hm=mean([P;V])
最后特征向量hm被輸入進(jìn)softmax分類器,輸出一個(gè)概率向量p,表示各類的概率值:
p=softmax(f(hm))
從得到的概率向量中取概率最大的那個(gè)類,若當(dāng)前類與輸入的場(chǎng)景一致,則分類器反饋給智能體一個(gè)獎(jiǎng)勵(lì),否則反饋給智能體一個(gè)懲罰;
在模型訓(xùn)練完畢后,智能體對(duì)所有商品包含的PV及其對(duì)應(yīng)的場(chǎng)景都輸出一個(gè)子序列,此時(shí)智能體采取動(dòng)作的策略不是依概率采樣,而是選擇概率最大的動(dòng)作;將子序列輸入分類網(wǎng)絡(luò),若分類網(wǎng)絡(luò)分類正確,則將子序列作為規(guī)則的Body部分,對(duì)應(yīng)場(chǎng)景作為規(guī)則的Head部分,輸出一條備選規(guī)則;
根據(jù)設(shè)定的最小支持度閾值和最小置信度閾值對(duì)候選規(guī)則進(jìn)行篩選,提取最終的規(guī)則;
根據(jù)最終的規(guī)則,將商品掛載到相應(yīng)的場(chǎng)景中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010071247.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運(yùn)行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲(chǔ)介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺(tái)
- 不規(guī)則圍棋





