[發(fā)明專利]一種結(jié)合知識(shí)增強(qiáng)和深度強(qiáng)化學(xué)習(xí)的對(duì)話策略優(yōu)化方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110997386.8 | 申請(qǐng)日: | 2021-08-27 |
| 公開(公告)號(hào): | CN113704425A | 公開(公告)日: | 2021-11-26 |
| 發(fā)明(設(shè)計(jì))人: | 陳穎璇;吳廣財(cái);葉杭;劉佳木;林嘉鑫;周昉昉;鄭穎龍;朱泰鵬;黃彬系 | 申請(qǐng)(專利權(quán))人: | 廣東電力信息科技有限公司 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F16/33;G06F16/338;G06N20/00 |
| 代理公司: | 北京世譽(yù)鑫誠(chéng)專利代理有限公司 11368 | 代理人: | 任欣生 |
| 地址: | 510030 廣東省廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 知識(shí) 增強(qiáng) 深度 強(qiáng)化 學(xué)習(xí) 對(duì)話 策略 優(yōu)化 方法 | ||
1.一種結(jié)合知識(shí)增強(qiáng)和深度強(qiáng)化學(xué)習(xí)的對(duì)話策略優(yōu)化方法,其特征在于,所述優(yōu)化方法包括:
獲取用戶給出的語(yǔ)言描述信息;
將所述語(yǔ)言描述信息進(jìn)行增強(qiáng),獲得增強(qiáng)數(shù)據(jù)集;
根據(jù)所述語(yǔ)言描述信息采用深度強(qiáng)化學(xué)習(xí)的方法獲得Q網(wǎng)絡(luò)參數(shù)的算法,所述Q網(wǎng)絡(luò)參數(shù)為對(duì)話狀態(tài)的空間和對(duì)話狀態(tài)的輸入過(guò)程中建立的對(duì)應(yīng)關(guān)系。
2.根據(jù)權(quán)利要求1所述的一種結(jié)合知識(shí)增強(qiáng)和深度強(qiáng)化學(xué)習(xí)的對(duì)話策略優(yōu)化方法,其特征在于,所述將所述語(yǔ)言描述信息進(jìn)行增強(qiáng),獲得增強(qiáng)數(shù)據(jù)集具體包括:
對(duì)所述語(yǔ)言描述信息進(jìn)行主題知識(shí)增強(qiáng),采用LDA主題模型、卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行主題知識(shí)擴(kuò)充,采用關(guān)鍵詞抽取技術(shù)抽取所述語(yǔ)言描述信息中的關(guān)鍵詞;
基于所述關(guān)鍵詞進(jìn)行文本增強(qiáng),采用語(yǔ)言學(xué)如詞性等特征進(jìn)行文本數(shù)據(jù)增強(qiáng),獲得增強(qiáng)文本信息;
將所述增強(qiáng)文本信息進(jìn)行對(duì)話管理,策略加權(quán)后選擇最終的決策結(jié)果。
3.根據(jù)權(quán)利要求1所述的一種結(jié)合知識(shí)增強(qiáng)和深度強(qiáng)化學(xué)習(xí)的對(duì)話策略優(yōu)化方法,其特征在于,所述根據(jù)所述語(yǔ)言描述信息采用深度強(qiáng)化學(xué)習(xí)的方法獲得Q網(wǎng)絡(luò)參數(shù)的算法具體包括:
所述對(duì)話策略為以對(duì)話的狀態(tài)作為輸入,通過(guò)一個(gè)π函數(shù)來(lái)產(chǎn)生一個(gè)動(dòng)作;
對(duì)話開始的狀態(tài)到結(jié)束的狀態(tài)是一個(gè)狀態(tài)序列,根據(jù)可枚舉的動(dòng)作集合,在對(duì)話狀態(tài)的空間和對(duì)話狀態(tài)的輸入過(guò)程中,建立起一個(gè)對(duì)應(yīng)關(guān)系;
根據(jù)所述對(duì)應(yīng)關(guān)系估計(jì)出多輪對(duì)話的過(guò)程中,每個(gè)自然語(yǔ)言的背后與之對(duì)應(yīng)的動(dòng)作,獲得Q網(wǎng)絡(luò)參數(shù)。
4.根據(jù)權(quán)利要求3所述的一種結(jié)合知識(shí)增強(qiáng)和深度強(qiáng)化學(xué)習(xí)的對(duì)話策略優(yōu)化方法,其特征在于,所述獲得Q網(wǎng)絡(luò)參數(shù)具體包括:
隨機(jī)初始化Q網(wǎng)絡(luò)的所有參數(shù)ω,基于ω初始化所有的狀態(tài)和動(dòng)作對(duì)應(yīng)的價(jià)值Q,經(jīng)驗(yàn)回放集合D;
從1到T,進(jìn)行迭代:
初始化S為當(dāng)前狀態(tài)序列的第一個(gè)狀態(tài),獲得特征向量φ(S)
在Q網(wǎng)絡(luò)中所述特征向量φ(S)作為輸入,得到Q網(wǎng)絡(luò)的所有動(dòng)作對(duì)應(yīng)的Q值輸出;
用∈貪婪法在當(dāng)前Q值輸出中選擇對(duì)應(yīng)的動(dòng)作A;
在狀態(tài)S執(zhí)行當(dāng)前動(dòng)作A,得到新狀態(tài)S'對(duì)應(yīng)的特征向量φ(S')和獎(jiǎng)勵(lì)R$,是否終止?fàn)顟B(tài)is_end;
將{φ(S),A,R,φ(S'),is_end}這個(gè)五元組存入所述經(jīng)驗(yàn)回放集合D,將S'賦值給S,從所述經(jīng)驗(yàn)回放集合D中采樣m個(gè)樣本{φ(Sj),Aj,Rj,φ(Sj'),is_endj},j=1,2,...m,計(jì)算當(dāng)前目標(biāo)Q值yj:
使用均方差損失函數(shù),通過(guò)神經(jīng)網(wǎng)絡(luò)的梯度方向傳播來(lái)更新Q網(wǎng)絡(luò)的所有參數(shù)ω;
如果S'是終止?fàn)顟B(tài),當(dāng)前輪迭代完畢,否則轉(zhuǎn)到步驟在Q網(wǎng)絡(luò)中所述特征向量φ(S)作為輸入。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東電力信息科技有限公司,未經(jīng)廣東電力信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110997386.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





