[發(fā)明專利]多輪對話方法、系統(tǒng)、介質(zhì)及裝置有效
| 申請?zhí)枺?/td> | 202110049695.2 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112800192B | 公開(公告)日: | 2022-02-08 |
| 發(fā)明(設(shè)計)人: | 楊球松;蘇磊 | 申請(專利權(quán))人: | 云從科技集團(tuán)股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06N20/00;G10L15/26;G10L13/08 |
| 代理公司: | 北京瀚仁知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11482 | 代理人: | 宋寶庫;郭婷 |
| 地址: | 511457 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 輪對 方法 系統(tǒng) 介質(zhì) 裝置 | ||
本發(fā)明屬于智能語音交互技術(shù)領(lǐng)域,具體涉及一種多輪對話方法、系統(tǒng)、介質(zhì)及裝置。本發(fā)明旨在解決如何在任務(wù)式多輪對話中實(shí)現(xiàn)對話路徑優(yōu)化的技術(shù)問題,從而在保證完成任務(wù)的同時減少對話次數(shù)/輪次。為此目的,本發(fā)明通過將強(qiáng)化學(xué)習(xí)訓(xùn)練的決策智能體作為對話決策模塊DPL的決策模型,從而根據(jù)最大化獎勵值累加和作為訓(xùn)練目標(biāo)而獲得更優(yōu)的決策模型以在任務(wù)式對話中盡量減少對話輪次。如此,優(yōu)化了對話路徑,有效避免了傳統(tǒng)有監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)DPL模塊使用的模型的復(fù)雜高成本的運(yùn)算并降低時間消耗。
技術(shù)領(lǐng)域
本發(fā)明屬于語音交互技術(shù)領(lǐng)域,具體涉及一種多輪對話方法、系統(tǒng)、介質(zhì)及裝置。
背景技術(shù)
在人機(jī)交互系統(tǒng)中往往會使用智能對話技術(shù),系統(tǒng)通過與用戶對話進(jìn)行信息收集、信息處理以完成既定目標(biāo)。通常稱這種對話形式為任務(wù)型對話,是由任務(wù)驅(qū)動多輪對話的,系統(tǒng)需要協(xié)助用戶完成某種任務(wù),例如智能導(dǎo)購(訂餐、訂票)、智能認(rèn)證等。現(xiàn)有技術(shù)中,一種智能任務(wù)型的對話管線pipeline實(shí)現(xiàn)原理如圖8所示,主要包括幾個部分(模塊):槽值填充SLU、對話狀態(tài)追蹤DST、對話策略學(xué)習(xí)DPL、意圖識別NLG(自然語言生成)。在智能門禁這一應(yīng)用場景下,任務(wù)式多輪對話系統(tǒng)可以引導(dǎo)用戶進(jìn)行多輪對話交互,收集必要信息從而完場特定場景下的任務(wù)。比如:用戶的語音轉(zhuǎn)換成文本(Text Utterance)即語音識別后,輸入到SLU分析信息槽的槽值,進(jìn)而預(yù)計了用戶的行為傳送到對話管理部分的DST預(yù)測出對話的狀態(tài),再將狀態(tài)提供給DPL更新整個系統(tǒng)行為,然后通過NLG給用戶提供識別了用戶意圖的系統(tǒng)響應(yīng)(語音回答)。在整個系統(tǒng)中進(jìn)行引導(dǎo)確定應(yīng)該做出何種響應(yīng)的就是DPL,DPL負(fù)責(zé)系統(tǒng)應(yīng)答動作選取,即決定了系統(tǒng)回答內(nèi)容。為了增強(qiáng)用戶體驗以及系統(tǒng)性能,系統(tǒng)就需要盡可能作出準(zhǔn)確應(yīng)答以及盡可能減少交互輪次,這樣我們就必須有良好性能的DPL模型來實(shí)現(xiàn)對話路徑優(yōu)化。傳統(tǒng)基于規(guī)則的DPL模型無法實(shí)現(xiàn)這種性能,因為所有對話路徑都是人為提前通過邏輯結(jié)構(gòu)設(shè)定好的,對于不能處理的用戶問題都會使用統(tǒng)一回復(fù)。
另一方面,基于有監(jiān)督學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)DPL模型雖然可以在迭代學(xué)習(xí)之后作出更加豐富準(zhǔn)確的應(yīng)答動作。但是需要大量帶標(biāo)簽的多輪對話數(shù)據(jù)來訓(xùn)練模型,數(shù)據(jù)標(biāo)注工作都需要耗費(fèi)大量人力成本和時間成本。
因而,需要改進(jìn)任務(wù)式多輪對話在應(yīng)用時能在保證完成任務(wù)的前提下盡量減少對話輪次即優(yōu)化對話路徑,以及改進(jìn)DPL的決策而盡量單輪準(zhǔn)確應(yīng)答。
發(fā)明內(nèi)容
為了克服上述缺陷,提出了本發(fā)明,以解決或至少部分解決:如何在任務(wù)式多輪對話中實(shí)現(xiàn)對話路徑優(yōu)化的技術(shù)問題,在保證完成任務(wù)的同時減少對話次數(shù)/輪次。本發(fā)明為解決上述技術(shù)問題提供了一種多輪對話方法、系統(tǒng)、介質(zhì)及裝置。
第一方面,本發(fā)明提供一種多輪對話的決策模型訓(xùn)練方法,包括:根據(jù)第m次對話的任務(wù)目標(biāo),為預(yù)測的系統(tǒng)行為,生成對應(yīng)的用戶的模擬行為,以形成t輪對話;為所述第m次對話中所形成的每一輪對話計算一單輪獎勵值,并在所述第m次對話結(jié)束時給予所述第m次對話一單次獎勵值;根據(jù)N次對話中每一次對話的單次獎勵值、所述每一次對話中所有輪對話的單輪獎勵值、,和強(qiáng)化學(xué)習(xí)算法對所述決策模型進(jìn)行N次訓(xùn)練并更新所述決策模型;其中,t、m、N為大于等于1的自然數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云從科技集團(tuán)股份有限公司,未經(jīng)云從科技集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110049695.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





