[發明專利]一種基于強化學習的多輪對話答復選擇模型及其方法有效
| 申請號: | 201811319709.2 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109597876B | 公開(公告)日: | 2023-04-11 |
| 發明(設計)人: | 林鍵;卓漢逵 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35 |
| 代理公司: | 廣州容大知識產權代理事務所(普通合伙) 44326 | 代理人: | 劉新年 |
| 地址: | 510275 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 輪對 答復 選擇 模型 及其 方法 | ||
本發明公開了一種基于強化學習的多輪對話答復選擇模型及其方法,該模型包括:策略網絡模塊,采用隨機策略,在各個狀態空間下對上下文文本的各句子中的各個單詞采樣一個動作,從而對整個上下文文本得到一個動作序列,并根據分類網絡的分類結果獲得延時獎勵;上下文文本重構網絡,根據所述策略網絡模塊輸出的動作序列,重構出一個新的上下文文本;分類網絡模塊,將上下文文本重構網絡重構后的上下文文本與候選回答句子進行匹配,最后得到分類結果,并根據分類結果計算得到一個損失值,將該損失值作為延遲獎勵更新所述策略網絡模塊,本發明不僅能夠自動地過濾掉與任務無關的詞語,同時在句子匹配的過程中充分考慮了不同句子與回答之間的語義相關性。
技術領域
本發明涉及機器學習技術領域,特別是涉及一種基于強化學習的多輪對話答復選擇模型及其方法。
背景技術
目前構建閑聊型的聊天機器人的工作主要分類兩種,一種是基于生成的聊天機器人,另外一種是基于檢索的聊天機器人。而由于基于檢索的聊天機器人是從實現定義好的索引中進行搜索,從當前對話中學習并選擇回復的句子,因此回答的內容不會存在語法或者語義的錯誤,因此廣受人們關注。
基于檢索的聊天機器人的早期研究主要集中于研究單輪對話,而單輪對話只考慮上一個輸入的句子,沒有完全考慮對話的上下文。近年來,隨著閑聊型聊天機器人的普及與深入,基于檢索的多輪對話越來越受到人們的關注,如表1所示就是基于檢索的多輪對話的一個例子。在多輪對話的答復選擇中,將當前的消息和先前的話語作為輸入,對話系統選擇一個自然地、與對話上下文語義相關的句子作為相應,因此對話系統最重要的是要從之前的話語中找出重要的信息,并恰當地模仿話語之前的關系,以確保談話的連貫性。
表1基于檢索的多輪對話的一個例子
眾所周知,多輪對話的難點在于不僅僅要考慮當前的提出的問題,還需要考慮到前幾輪對話的情景以及上下文出現的信息。因此,基于檢索的多輪對話的難點主要有兩點:第一、如何從上下文中確定用于確定答復的關鍵信息,包括關鍵詞、關鍵短語或者關鍵句等;第二、如何在上下文中模擬多輪對話之間的關系。
目前,基于檢索的多輪對話的實現方法有不少,一種比較簡單的方法是將上下文的句子拼接起來,然后與候選的答復做匹配,這種方法的缺點是由于對話上下文的冗余信息太多,導致引入很多多余的噪聲。因此,多輪對話的關鍵是識別對話上下文中與答復相關的信息,然后對答句與相關信息之間的關系進行建模,有人提出了一種將答句與上文各個句子分別匹配的序列匹配模型(SMN)。
具體地,給定一個數據集其中表示對話的上下文,表示上下文中的一個句子。ri是一個候選的回答,yi∈{0,1}表示一個類標。當yi=1表示ri是si的一個合理答復,否則yi=0。模型的目標是在數據集D上學習一個匹配模型g(·,·)。g(s,r)能夠建模上下文-答復對(s,r)之間的關系。
而所述序列匹配模型SMN就是在建模g(s,r),SMN首先將上下文-答復對匹配問題分解為幾個上下文句子-答復對匹配問題,然后使用循環神經網絡將句子匹配的結果聚合起來。
SMN模型包含三個部分,第一部分是將候選的回答句子分別于上下文的各個句子進不同粒度(詞語和詞組級別)的匹配,然后使用一個卷積神經網絡(CNN),提取其中包含的匹配信息。第二部分是使用一個門循環單元(GRU)將多個句子的匹配信息聚合起來。第三部分是使用第二部分的GRU中的隱藏狀態來計算最后的匹配值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811319709.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于詞嵌入的高斯LDA的優化求解方式
- 下一篇:一種知識的推理方法及裝置





