[發明專利]基于強化學習的對話式導診方法、裝置及存儲介質在審
| 申請號: | 202010853272.1 | 申請日: | 2020-08-23 |
| 公開(公告)號: | CN111951959A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 陳峰;申安盈 | 申請(專利權)人: | 云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G06F16/33;G06F16/332;G06F16/35;G06F40/295;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 對話 導診 方法 裝置 存儲 介質 | ||
1.基于強化學習的對話式導診方法,其特征在于,所述方法包括:
利用用戶編碼模塊記錄用戶在t時刻的輸入xt,并通過卷積神經網絡學習到用戶輸入的編碼ut;
通過循環神經網絡,基于所述編碼ut及上一時刻系統的隱藏狀態ht-1,得到核心網絡模塊的輸出ot及當前的隱藏狀態ht,
在分類預測模塊,所述輸出ot通過全連接的前向網絡,輸出分類評定ct;
在提問策略模塊,基于所述輸出ot,通過全連接的前向網絡得到預定義命名實體識NER類別上的概率分布,基于累計的所述NER記錄表和提問模板,進行交互對話,在達到預定的T輪交互后,退出交互,并以最后一次ct的結果作為最終的科室推薦結果。
2.根據權利要求1所述的方法,其特征在于,Dimension(ct)=n,n表示科室類別數目,用于訓練時計算損失,以及預測科室時的概率。
3.根據權利要求1所述的方法,其特征在于,在交互對話過程中,根據預設的系統需要收集m個NER類別,具體為:
從用戶的回復中收集對應的NER類別的實體,并通過上一時刻收集的情況maskingt-1與當前用戶回復文本中的NER抽取情況,生成當前維度為m的maskingt;
通過所述輸出ot,經過提問策略網絡生成在NER類別上的概率分布qt,結合所述maskingt后求argmax函數,得到下一時刻的提問模板,基于預定義的NER類別關鍵詞,經過對系統提問模板的檢索,輸出系統提問,完成一輪問答交互。
4.根據權利要求3所述的方法,其特征在于,在T輪對話中,通過對科室預測的準確情況,給與獎賞值,其中,獎賞reward如下定義:
其中,每一輪前向計算的獎賞值為rt,如果t時刻科室推薦正確,則rt=1,否則rt=0。
5.根據權利要求3所述的方法,其特征在于,使用REINFORCE損失函數計算經過T輪交互之后的損失函數,損失函數如下:
其中,M表示訓練迭代的次數;θ表示用戶編碼模塊、核心網絡模塊、分類預測模塊的網絡參數;提問策略模塊的網絡參數不參與梯度計算;表示從開始到t時刻的所有動作,包括用戶的答復、系統的提問以及科室分類的結果;ht表示st;bt=Eπ[Rt]。
6.根據權利要求1所述的方法,其特征在于,若在提問過程中,
用戶答非所問,在經過T次提問后,會退出提問環節,根據當前僅有的信息,把計算得到的概率最大的科室作為推薦;
科室的概率低于預設閾值,則不推薦科室,直接轉人工服務臺。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司,未經云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010853272.1/1.html,轉載請聲明來源鉆瓜專利網。





