[發(fā)明專(zhuān)利]一種結(jié)合知識(shí)增強(qiáng)和深度強(qiáng)化學(xué)習(xí)的對(duì)話策略?xún)?yōu)化方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110997386.8 | 申請(qǐng)日: | 2021-08-27 |
| 公開(kāi)(公告)號(hào): | CN113704425A | 公開(kāi)(公告)日: | 2021-11-26 |
| 發(fā)明(設(shè)計(jì))人: | 陳穎璇;吳廣財(cái);葉杭;劉佳木;林嘉鑫;周昉昉;鄭穎龍;朱泰鵬;黃彬系 | 申請(qǐng)(專(zhuān)利權(quán))人: | 廣東電力信息科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/332 | 分類(lèi)號(hào): | G06F16/332;G06F16/33;G06F16/338;G06N20/00 |
| 代理公司: | 北京世譽(yù)鑫誠(chéng)專(zhuān)利代理有限公司 11368 | 代理人: | 任欣生 |
| 地址: | 510030 廣東省廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 知識(shí) 增強(qiáng) 深度 強(qiáng)化 學(xué)習(xí) 對(duì)話 策略 優(yōu)化 方法 | ||
本發(fā)明提供的一種結(jié)合知識(shí)增強(qiáng)和深度強(qiáng)化學(xué)習(xí)的對(duì)話策略?xún)?yōu)化方法,所述優(yōu)化方法包括:獲取用戶(hù)給出的語(yǔ)言描述信息;將所述語(yǔ)言描述信息進(jìn)行增強(qiáng),獲得增強(qiáng)數(shù)據(jù)集;根據(jù)所述語(yǔ)言描述信息采用深度強(qiáng)化學(xué)習(xí)的方法獲得Q網(wǎng)絡(luò)參數(shù)的算法,所述Q網(wǎng)絡(luò)參數(shù)為對(duì)話狀態(tài)的空間和對(duì)話狀態(tài)的輸入過(guò)程中建立的對(duì)應(yīng)關(guān)系。首先對(duì)用戶(hù)的問(wèn)題進(jìn)行主題知識(shí)增強(qiáng),然后使用深度強(qiáng)化學(xué)習(xí)方法應(yīng)用于DPL學(xué)習(xí)對(duì)話的動(dòng)作決策中,最后加權(quán)選擇最終的決策。這種方式泛化能力強(qiáng),極大地減少了人工成本,并且提高了人機(jī)對(duì)話系統(tǒng)的靈活性。
技術(shù)領(lǐng)域
本發(fā)明涉及對(duì)話策略領(lǐng)域,尤其涉及一種結(jié)合知識(shí)增強(qiáng)和深度強(qiáng)化學(xué)習(xí)的對(duì)話策略?xún)?yōu)化方法。
背景技術(shù)
對(duì)話系統(tǒng)一般分為目標(biāo)導(dǎo)向型對(duì)話系統(tǒng)和閑聊型對(duì)話系統(tǒng),其中目標(biāo)導(dǎo)向型的對(duì)話系統(tǒng)具有明確需要完成的任務(wù)目標(biāo)。對(duì)話系統(tǒng)的最新進(jìn)展絕大多數(shù)是由深度學(xué)習(xí)技術(shù)所貢獻(xiàn)的,深度學(xué)習(xí)技術(shù)通過(guò)利用大規(guī)模數(shù)據(jù)來(lái)學(xué)習(xí)有意義的特征表示和回復(fù)生成策略,同時(shí)只需要少量人工特征,這個(gè)發(fā)展使得對(duì)話系統(tǒng)在工業(yè)界越來(lái)越廣泛地被應(yīng)用。
深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的產(chǎn)物,集成了深度學(xué)習(xí)的理解能力和強(qiáng)化學(xué)習(xí)的決策能力,使得強(qiáng)化學(xué)習(xí)技術(shù)真正走向?qū)嵱茫靡越鉀Q現(xiàn)實(shí)場(chǎng)景中的復(fù)雜問(wèn)題。
目前,工業(yè)界普遍使用的對(duì)話策略都是基于規(guī)則的,但是這種方式只能在比較小的任務(wù)上效果比較好。基于規(guī)則的對(duì)話策略動(dòng)作狀態(tài)序列固定,必須規(guī)規(guī)矩矩按照系統(tǒng)提示問(wèn)答,否則無(wú)法響應(yīng)需求。人力成本高,泛化能力差。
發(fā)明內(nèi)容
鑒于上述問(wèn)題,提出了本發(fā)明以便提供克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種結(jié)合知識(shí)增強(qiáng)和深度強(qiáng)化學(xué)習(xí)的對(duì)話策略?xún)?yōu)化方法。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種結(jié)合知識(shí)增強(qiáng)和深度強(qiáng)化學(xué)習(xí)的對(duì)話策略?xún)?yōu)化方法,所述優(yōu)化方法包括:
獲取用戶(hù)給出的語(yǔ)言描述信息;
將所述語(yǔ)言描述信息進(jìn)行增強(qiáng),獲得增強(qiáng)數(shù)據(jù)集;
根據(jù)所述語(yǔ)言描述信息采用深度強(qiáng)化學(xué)習(xí)的方法獲得Q網(wǎng)絡(luò)參數(shù)的算法,所述Q網(wǎng)絡(luò)參數(shù)為對(duì)話狀態(tài)的空間和對(duì)話狀態(tài)的輸入過(guò)程中建立的對(duì)應(yīng)關(guān)系。
可選的,所述將所述語(yǔ)言描述信息進(jìn)行增強(qiáng),獲得增強(qiáng)數(shù)據(jù)集具體包括:
對(duì)所述語(yǔ)言描述信息進(jìn)行主題知識(shí)增強(qiáng),采用LDA主題模型、卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行主題知識(shí)擴(kuò)充,采用關(guān)鍵詞抽取技術(shù)抽取所述語(yǔ)言描述信息中的關(guān)鍵詞;
基于所述關(guān)鍵詞進(jìn)行文本增強(qiáng),采用語(yǔ)言學(xué)如詞性等特征進(jìn)行文本數(shù)據(jù)增強(qiáng),獲得增強(qiáng)文本信息;
將所述增強(qiáng)文本信息進(jìn)行對(duì)話管理,策略加權(quán)后選擇最終的決策結(jié)果。
可選的,所述根據(jù)所述語(yǔ)言描述信息采用深度強(qiáng)化學(xué)習(xí)的方法獲得Q網(wǎng)絡(luò)參數(shù)的算法具體包括:
所述對(duì)話策略為以對(duì)話的狀態(tài)作為輸入,通過(guò)一個(gè)π函數(shù)來(lái)產(chǎn)生一個(gè)動(dòng)作;
對(duì)話開(kāi)始的狀態(tài)到結(jié)束的狀態(tài)是一個(gè)狀態(tài)序列,根據(jù)可枚舉的動(dòng)作集合,在對(duì)話狀態(tài)的空間和對(duì)話狀態(tài)的輸入過(guò)程中,建立起一個(gè)對(duì)應(yīng)關(guān)系;
根據(jù)所述對(duì)應(yīng)關(guān)系估計(jì)出多輪對(duì)話的過(guò)程中,每個(gè)自然語(yǔ)言的背后與之對(duì)應(yīng)的動(dòng)作,獲得Q網(wǎng)絡(luò)參數(shù)。
可選的,所述獲得Q網(wǎng)絡(luò)參數(shù)具體包括:
隨機(jī)初始化Q網(wǎng)絡(luò)的所有參數(shù)ω,基于ω初始化所有的狀態(tài)和動(dòng)作對(duì)應(yīng)的價(jià)值Q,經(jīng)驗(yàn)回放集合D;
從1到T,進(jìn)行迭代:
初始化S為當(dāng)前狀態(tài)序列的第一個(gè)狀態(tài),獲得特征向量φ(S)
在Q網(wǎng)絡(luò)中所述特征向量φ(S)作為輸入,得到Q網(wǎng)絡(luò)的所有動(dòng)作對(duì)應(yīng)的Q值輸出;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于廣東電力信息科技有限公司,未經(jīng)廣東電力信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110997386.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





