[發明專利]生成對話語言模型及生成對話的方法、裝置和存儲介質在審
| 申請號: | 202310413342.5 | 申請日: | 2023-04-17 |
| 公開(公告)號: | CN116415650A | 公開(公告)日: | 2023-07-11 |
| 發明(設計)人: | 華浩鈞;朱奕安;華向東 | 申請(專利權)人: | 惠州市沃羊文化發展有限公司 |
| 主分類號: | G06N3/092 | 分類號: | G06N3/092;G06N3/09;G06N3/084;G06N3/0455;G06N3/047;G06N3/048;G06F16/332;G06F16/33 |
| 代理公司: | 中國商標專利事務所有限公司 11234 | 代理人: | 王淑玲 |
| 地址: | 516007 廣東省惠州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 生成 對話 語言 模型 方法 裝置 存儲 介質 | ||
本發明提供了一種生成對話語言模型及生成對話的方法、裝置和存儲介質。對話語言模型是用于生成引導式對話的引導式對話語言模型。生成對話語言模型的方法包括:對第一引導式對話樣本數據集進行順序標識和組合,生成監督微調訓練/證明樣本集;對初始語言模型進行監督微調;對第二對話樣本數據集中的提示項、選擇項和拒絕項進行標注和組合,生成獎勵模型訓練樣本集;對獎勵模型進行訓練;將第三對話樣本數據集中的提示項與內容項拆分,生成強化學習訓練/驗證樣本集;對模型執行基于近端策略優化的強化學習;在獎勵模型打分達到預定義目標時獲得經訓練的引導式對話語言模型。本發明能夠基于對長文本的理解能力提供引導式對話。
技術領域
本發明的實施方式總體上涉及人工智能技術領域,更具體地,涉及一種生成對話語言模型及生成對話的方法、裝置和存儲介質。
背景技術
在當今人工智能技術不斷發展的背景下,聊天機器人作為一種人機交互方式,已經在市場上得到了廣泛的應用。然而,當前市場上的聊天機器人主要是基于預設語料庫進行自動回復,這種機器人存在著許多缺點,如回復刻板、缺乏人性化的情感交流等問題。在聊天的內容方面,現有的市面上聊天機器人可以提供某些日常的閑聊服務、甚至是一些聯網檢索音樂、資料的能力,但是由于它們大多缺乏與用戶的深入互動和精準分析,難以真正了解用戶的需求,更難以為用戶提供個性化的服務。例如:微軟小冰、蘋果的Siri等。這種基于語料庫回復的聊天內容使得用戶往往無法得到滿意的體驗,同時也影響了人工智能技術在市場上的推廣和應用,也限制了對話聊天類型機器人的應用場景,在針對特定場景的應用往往需要耗費大量的人類物力對特定的對話進行完善和補充,在垂直細分領域該模式是不可取或者極其耗費資源的。
發明內容
為了解決現有技術中的上述問題,在第一方面,本發明的實施方式提供了一種生成對話語言模型的方法,所述對話語言模型是用于生成引導式對話的引導式對話語言模型,所述方法包括:獲取第一對話樣本數據集,其中,所述第一對話樣本數據集是引導式對話樣本數據集,并且所述第一對話樣本數據集中的每個樣本包括同一語境下的一組或多組對話;對所述第一對話樣本數據集中的每個樣本中的一組或多組對話中的每組對話添加順序標識符,并標注該組對話中的提示項和內容項,其中,內容項與引導式對話內容相關聯,對所述第一對話樣本數據集中的第一部分樣本中的對話相對應的順序標識符、提示項和內容項進行組合生成監督微調訓練樣本集,對所述第一對話樣本數據集中的第二部分樣本中的對話相對應的順序標識符、提示項和內容項進行組合生成監督微調證明樣本集;利用所述監督微調訓練樣本集、所述監督微調證明樣本集和參數固定訓練器對初始語言模型進行監督微調,獲取經監督微調的引導式對話語言模型;獲取第二對話樣本數據集,其中,所述第二對話樣本數據集中的每個樣本包括提示項、選擇項和拒絕項,其中,選擇項與引導式對話內容相關聯,拒絕項與非引導式對話內容相關聯;將所述第二對話樣本數據集中的每個樣本中的提示項、選擇項和拒絕項進行標注和組合,生成獎勵模型訓練樣本集;利用所述獎勵模型訓練樣本集對初始獎勵模型進行訓練,獲取經訓練的獎勵模型,其中,對獎勵模型進行訓練中的損失函數的損失值與訓練中的獎勵模型對選擇項的打分成負相關,與訓練中的獎勵模型對拒絕項的打分成正相關;獲取第三對話樣本數據集,其中,所述第三對話樣本數據集是引導式對話樣本數據集,并且所述第三對話樣本數據集中的每個樣本包括同一語境下的一組或多組對話;對所述第三對話樣本數據集中的每個樣本中的一組或多組對話中的每組對話添加順序標識符,并標注該組對話中的提示項和內容項,其中,內容項與引導式對話內容相關聯;依次提取所述第三對話樣本數據集中的每個樣本中的每組對話的提示項與內容項并組成元組;繼而將所述元組解包,分別創建提示項列表和內容項列表,根據所述第三對話樣本數據集中的第一部分樣本相對應的提示項列表和內容項列表生成強化學習訓練樣本集,并根據所述第三對話樣本數據集中的第二部分樣本相對應的提示項列表和內容項列表生成強化學習驗證樣本集;利用所述經訓練的獎勵模型、初始策略神經網絡、所述強化學習訓練樣本集和所述強化學習驗證樣本集,對所述經監督微調的引導式對話語言模型執行基于近端策略優化的強化學習,包括:利用所述經訓練的獎勵模型對訓練過程中的經監督微調的引導式對話語言模型的輸出進行打分,根據所述經訓練的獎勵模型的打分生成強化學習環境反饋,繼而策略神經網絡根據所述強化學習環境反饋來更新策略神經網絡的參數;在所述經訓練的獎勵模型的打分未達到預定義目標的情況下,根據當前的策略神經網絡對當前的引導式對話語言模型繼續執行基于近端策略優化的強化學習;在所述經訓練的獎勵模型的打分達到所述預定義目標的情況下,輸出當前的策略神經網絡,并且將當前訓練獲得的引導式對話語言模型作為經訓練的引導式對話語言模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于惠州市沃羊文化發展有限公司,未經惠州市沃羊文化發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310413342.5/2.html,轉載請聲明來源鉆瓜專利網。





