[發明專利]模型訓練方法及人機交互方法、裝置有效
| 申請號: | 202210113215.9 | 申請日: | 2022-01-26 |
| 公開(公告)號: | CN114444462B | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 張紅陽;焦振宇;孫叔琦;常月;李婷婷 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/35;G06K9/62;G06N3/08 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 杜月 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 人機交互 裝置 | ||
本申請公開了模型訓練方法及人機交互方法、裝置,涉及自然語言處理、智能搜索、深度學習等領域。具體實現方案為:獲取模板對應的樣本集;基于樣本集,構造對比學習任務的正例對和負例對;基于對比學習任務的正例對和負例對,對預訓練模型進行對比學習訓練。實現將模板知識學習到了模型本身中,模板知識和預訓練模型的語義知識充分結合,提升模型的普適性和易用性。
技術領域
本申請公開了一種模型訓練方法及人機交互方法、裝置,涉及人工智能領域,具體涉及自然語言處理、智能搜索、深度學習等領域。
背景技術
在人機對話交互過程中,機器需要理解對話語句的語義。基于大規模無監督數據的預訓練模型,在多項自然語言處理任務上取得了突破性的提升。在預訓練模型應用于特定領域時,通常會將領域知識融入到預訓練模型中,使得通用的預訓練模型,可以在特定領域發揮更好的效果。
相對于標注樣本,模板可以看做是是一類句式的表達,或者看做是許多具有相同語義的句子的集合,模板蘊含著更加豐富的語義信息。將模板知識引入到預訓練模型中,會讓預訓練模型產出的語義表示更加適用于對話理解。
發明內容
本申請提供了一種模型訓練方法及人機交互方法、裝置、設備以及存儲介質,以提高模型的語義理解能力。
根據本申請的第一方面,提供了一種模型訓練方法,包括:
獲取模板對應的樣本集;
基于所述樣本集,構造對比學習任務的正例對和負例對;
基于所述對比學習任務的正例對和負例對,對預訓練模型進行對比學習訓練。
根據本申請的第二方面,提供了一種人機交互方法,包括:
獲取用戶輸入內容;
將所述用戶輸入內容輸入預先訓練好的預訓練模型,得到所述用戶輸入內容的意圖和詞槽;其中,所述預先訓練好的預訓練模型為采用第一方面所述的模型訓練方法訓練得到的;
根據所述意圖和詞槽,獲取系統反饋。
根據本申請的第三方面,提供了一種模型訓練裝置,包括:
樣本獲取模塊,用于獲取模板對應的樣本集;
任務構造模塊,用于基于所述樣本集,構造對比學習任務的正例對和負例對;
模型訓練模塊,用于基于所述對比學習任務的正例對和負例對,對預訓練模型進行對比學習訓練。
根據本申請的第四方面,提供了一種人機交互裝置,包括:
輸入獲取模塊,用于獲取用戶輸入內容;
模型應用模塊,用于將所述用戶輸入內容輸入預先訓練好的預訓練模型,得到所述用戶輸入內容的意圖和詞槽;其中,所述預先訓練好的預訓練模型為采用第一方面所述的模型訓練方法訓練得到的;
結果獲取模塊,用于根據所述意圖和詞槽,獲取系統反饋。
根據本申請的第五方面,提供了一種電子設備,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行第一方面所述的方法,或者以使所述至少一個處理器能夠執行第二方面所述的方法。
根據本申請的第六方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使所述計算機執行第一方面所述的方法,或者以使所述至少一個處理器能夠執行第二方面所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210113215.9/2.html,轉載請聲明來源鉆瓜專利網。





