[發明專利]文本機器人交叉驗證優化方法及裝置在審
| 申請號: | 202010903444.1 | 申請日: | 2020-09-01 |
| 公開(公告)號: | CN112035666A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 梁雨霏 | 申請(專利權)人: | 中國銀行股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N20/00;G06F16/332 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 谷敬麗;吳學鋒 |
| 地址: | 100818 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 機器人 交叉 驗證 優化 方法 裝置 | ||
本發明提供的文本機器人交叉驗證優化方法及裝置,可以從知識庫存儲的全量語料數據中抽取語料用于文本機器人的模型訓練和測試,篩選應答錯誤的語料構成誤判語料集,然后對誤判語料集進行分類處理和原因判斷,幫助開發和測試人員完成問題定位,大大縮短了問題定位需要的時間,提高了系統改進的效率。
技術領域
本發明涉及文本機器人交叉驗證優化技術領域,具體涉及文本機器人交叉驗證優化方法及裝置。
背景技術
為評估專業領域文本機器人的應答效果,以往采用交叉驗證的方法,將語料數據分為訓練集和測試集,分別用于機器人模型訓練和測試評估,依據驗證結果對機器人應答效果進行打分。使用該方法能夠得到機器人應答效果的整體評價,進一步改進機器人性能仍需要測試人員手工驗證和查找問題。當機器人涉及專業領域覆蓋的業務場景較復雜時,需要耗費大量的人力和時間成本定位問題,目前主要應用交叉驗證法對文本機器人作整體評估,評估得分反映系統應答效果,當應答效果不佳時需要測試人員手工查找問題缺陷。
發明內容
針對現有技術中的問題,本發明提供一種文本機器人交叉驗證優化方法及裝置。
為解決上述技術問題,本發明提供以下技術方案:
本發明的一個方面實施例提供一種文本機器人交叉驗證優化方法,包括:
利用已標記預設正確答復語句的詢問語句測試多個語料模型,每個應答語料模型輸出對應的答復語句,所述多個語料模型是利用多組語料訓練集訓練機器學習模型得到,每組語料訓練集包括多個問答語句對,每個問答語句對包括一詢問語句和對應的一答復語句;所述問答語句對是文本機器人與客戶進行信息交互產生的;
比對所述預設正確答復語句與每個應答語料模型輸出的答復語句,生成答復正誤對照表;
根據所述答復正誤對照表中錯誤答復語句的數量優化所述機器學習模型的算法或者優化包括所述問答語句對的語料庫。
在優選的實施例中,還包括:采集文本機器人與客戶信息交互過程中的問答語句對,形成語料庫。
在優選的實施例中,還包括:建立所述機器學習模型。
在優選的實施例中,還包括:
采集文本機器人與客戶進行信息交互產生的問答語句對,生成所述語料庫;
對所述語料庫進行多次隨機抽取,得到多組語料訓練集。
在優選的實施例中,所述根據所述答復正誤對照表中錯誤答復語句的數量優化所述機器學習模型的算法或者優化包括所述問答語句對的語料庫,包括:
針對同一詢問語句,若所述答復正誤對照表中對應答復語句錯誤率高于設定閾值,將該詢問語句加入誤判集合;
根據錯誤答復語句的數量和同一詢問語句對應的所有答復語句的數量,結合所述答復語句錯誤率對該詢問語句進行分類;
根據每個詢問語句所處的分類,優化所述機器學習模型的算法或者優化包括所述問答語句對的語料庫。
在優選的實施例中,所述根據錯誤答復語句的數量和同一詢問語句對應的所有答復語句的數量,結合所述答復語句錯誤率對該詢問語句進行分類,包括:
若所述錯誤答復語句的數量低于第一設定閾值,并且所有答復語句的數量低于第二設定閾值,將該詢問語句分類至第一類別;
若所述錯誤答復語句的數量低于第一設定閾值,并且所有答復語句的數量高于第二設定閾值,將該詢問語句分類至第二類別;
若所述錯誤答復語句的數量高于第一設定閾值,并且所有答復語句的數量高于第二設定閾值,將該詢問語句分類至第三類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀行股份有限公司,未經中國銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010903444.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:批量報文自動組報方法及裝置
- 下一篇:基于代發薪客戶交易行為的營銷方法和裝置





