[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的智能對(duì)話方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010146607.6 | 申請(qǐng)日: | 2020-03-05 |
| 公開(kāi)(公告)號(hào): | CN111400466A | 公開(kāi)(公告)日: | 2020-07-10 |
| 發(fā)明(設(shè)計(jì))人: | 唐杰聰;張磊;羅樋;郭銳鵬 | 申請(qǐng)(專利權(quán))人: | 中國(guó)工商銀行股份有限公司 |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06F16/33;G06N3/04;G06N20/00 |
| 代理公司: | 北京三友知識(shí)產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 周永君;王濤 |
| 地址: | 100140 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 智能 對(duì)話 方法 裝置 | ||
本發(fā)明提供一種基于強(qiáng)化學(xué)習(xí)的智能對(duì)話方法及裝置,所述方法包括:接收用戶輸入的話語(yǔ);根據(jù)所述用戶輸入的話語(yǔ),獲得多個(gè)應(yīng)答動(dòng)作;根據(jù)所述用戶輸入的話語(yǔ)、所述多個(gè)應(yīng)答動(dòng)作以及應(yīng)答選擇模型,獲得所述用戶輸入的話語(yǔ)對(duì)應(yīng)的最佳應(yīng)答動(dòng)作;其中,所述應(yīng)答選擇模型是基于話語(yǔ)樣本訓(xùn)練數(shù)據(jù)以及強(qiáng)化學(xué)習(xí)模型訓(xùn)練后獲得的;根據(jù)所述用戶輸入的話語(yǔ)對(duì)應(yīng)的最佳應(yīng)答動(dòng)作,生成應(yīng)答話語(yǔ)。所述裝置用于執(zhí)行上述方法。本發(fā)明實(shí)施例提供的基于強(qiáng)化學(xué)習(xí)的智能對(duì)話方法及裝置,提高了對(duì)用戶輸入的話語(yǔ)的應(yīng)答的準(zhǔn)確性。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,具體涉及一種基于強(qiáng)化學(xué)習(xí)的智能對(duì)話方法及裝置。
背景技術(shù)
隨著人工智能技術(shù)發(fā)展,智能對(duì)話系統(tǒng)越來(lái)越普遍,廣泛應(yīng)用于智能客服、個(gè)人助理、社交聊天等領(lǐng)域。
由于設(shè)計(jì)人員的思維局限性以及數(shù)據(jù)、存儲(chǔ)、計(jì)算能力的限制,智能對(duì)話系統(tǒng)無(wú)法完全考慮到用戶提出的各式各樣的問(wèn)題。當(dāng)智能對(duì)話系統(tǒng)遇到設(shè)計(jì)之初未考慮到的問(wèn)題時(shí),針對(duì)上述問(wèn)題的應(yīng)答動(dòng)作可以被看作是隨機(jī)應(yīng)答,往往無(wú)法正確回應(yīng)用戶提出的問(wèn)題,使用戶感到答非所問(wèn)。對(duì)此,現(xiàn)有技術(shù)中智能對(duì)話系統(tǒng)的解決方法是根據(jù)智能對(duì)話系統(tǒng)上線運(yùn)行后積累的用戶反饋信息在每一次的系統(tǒng)版本更新中進(jìn)行針對(duì)性的優(yōu)化。對(duì)某個(gè)錯(cuò)誤應(yīng)答的問(wèn)題最早要在下一個(gè)版本上修復(fù),而每個(gè)系統(tǒng)版本更新又有著大量的模型代碼修改及相應(yīng)的上線測(cè)試,以至于同樣的錯(cuò)誤應(yīng)答會(huì)長(zhǎng)時(shí)間存在于系統(tǒng)之上,這種解決辦法難免更新不及時(shí),需要較長(zhǎng)的周期解決智能對(duì)話系統(tǒng)出現(xiàn)的問(wèn)題。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的問(wèn)題,本發(fā)明實(shí)施例提供一種基于強(qiáng)化學(xué)習(xí)的智能對(duì)話方法及裝置,能夠至少部分地解決現(xiàn)有技術(shù)中存在的問(wèn)題。
一方面,本發(fā)明提出一種基于強(qiáng)化學(xué)習(xí)的智能對(duì)話方法,包括:
接收用戶輸入的話語(yǔ);
根據(jù)所述用戶輸入的話語(yǔ),獲得多個(gè)應(yīng)答動(dòng)作;
根據(jù)所述用戶輸入的話語(yǔ)、所述多個(gè)應(yīng)答動(dòng)作以及應(yīng)答選擇模型,獲得所述用戶輸入的話語(yǔ)對(duì)應(yīng)的最佳應(yīng)答動(dòng)作;其中,所述應(yīng)答選擇模型是基于話語(yǔ)樣本訓(xùn)練數(shù)據(jù)以及強(qiáng)化學(xué)習(xí)模型訓(xùn)練后獲得的;
根據(jù)所述用戶輸入的話語(yǔ)對(duì)應(yīng)的最佳應(yīng)答動(dòng)作,生成應(yīng)答話語(yǔ)。
另一方面,本發(fā)明提供一種基于強(qiáng)化學(xué)習(xí)的智能對(duì)話裝置,包括:
接收單元,用于接收用戶輸入的話語(yǔ);
獲得單元,用于根據(jù)所述用戶輸入的話語(yǔ),獲得多個(gè)應(yīng)答動(dòng)作;
選擇單元,用于根據(jù)所述用戶輸入的話語(yǔ)、所述多個(gè)應(yīng)答動(dòng)作以及應(yīng)答選擇模型,獲得所述用戶輸入的話語(yǔ)對(duì)應(yīng)的最佳應(yīng)答動(dòng)作;其中,所述應(yīng)答選擇模型是基于話語(yǔ)樣本訓(xùn)練數(shù)據(jù)以及強(qiáng)化學(xué)習(xí)模型訓(xùn)練后獲得的;
生成單元,用于根據(jù)所述用戶輸入的話語(yǔ)對(duì)應(yīng)的最佳應(yīng)答動(dòng)作,生成應(yīng)答話語(yǔ)。
再一方面,本發(fā)明提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述任一實(shí)施例所述基于強(qiáng)化學(xué)習(xí)的智能對(duì)話方法的步驟。
又一方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一實(shí)施例所述基于強(qiáng)化學(xué)習(xí)的智能對(duì)話方法的步驟。
本發(fā)明實(shí)施例提供的基于強(qiáng)化學(xué)習(xí)的智能對(duì)話方法及裝置,能夠接收用戶輸入的話語(yǔ),根據(jù)用戶輸入的話語(yǔ),獲得多個(gè)應(yīng)答動(dòng)作,根據(jù)用戶輸入的話語(yǔ)、多個(gè)應(yīng)答動(dòng)作以及應(yīng)答選擇模型,獲得用戶輸入的話語(yǔ)對(duì)應(yīng)的最佳應(yīng)答動(dòng)作,根據(jù)用戶輸入的話語(yǔ)對(duì)應(yīng)的最佳應(yīng)答動(dòng)作,生成應(yīng)答話語(yǔ),通過(guò)應(yīng)答選擇模型從多個(gè)應(yīng)答動(dòng)作中選擇出合適的應(yīng)答動(dòng)作以生成應(yīng)答話語(yǔ),提高了對(duì)用戶輸入的話語(yǔ)的應(yīng)答的準(zhǔn)確性。
附圖說(shuō)明
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)工商銀行股份有限公司,未經(jīng)中國(guó)工商銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010146607.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





