[發明專利]意圖識別的方法、裝置、設備和介質在審
| 申請號: | 202210262775.0 | 申請日: | 2022-03-17 |
| 公開(公告)號: | CN114706943A | 公開(公告)日: | 2022-07-05 |
| 發明(設計)人: | 汪碩芃;張林箭;宋有偉;張聰;呂唐杰;范長杰;胡志鵬 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 北京元合聯合知識產權代理事務所(特殊普通合伙) 11653 | 代理人: | 李非非 |
| 地址: | 310056 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 意圖 識別 方法 裝置 設備 介質 | ||
本申請公開了一種意圖識別的方法、裝置、設備和介質,該方法包括:獲取訓練樣本集合,該訓練樣本集合包括多個訓練樣本,每個訓練樣本為抽象化意圖的字符組合,訓練樣本至少包括有序排列的關注字符;在去重后訓練樣本集合的總字符數量大于或等于第一閾值時,根據字符出現次數對每個訓練樣本進行壓縮處理,得到壓縮樣本集合;將壓縮樣本集合輸入到預先構建的掩碼語言模型進行訓練,輸出得到意圖識別結果,該掩碼語言模型用于將輸入的壓縮樣本填充到待訓練的語言提示模板中預設位置后進行訓練。本申請提供的實施例通過對訓練樣本進行統一的預處理改造,有效地提升了掩碼語言模型的收斂速度。
技術領域
本發明涉及自然語言處理技術領域,特別是指一種意圖識別的方法、裝置、設備和介質。
背景技術
意圖識別是指對用戶的搜索需求進行分類識別。意圖識別應用的領域涉及搜索引擎、對話系統,智能物聯網、機器人等。在這些應用領域中,用戶輸入的搜索信息可能存在不規范,輸入方式多樣化,甚至采用的是非標準的自然語言等問題。因此,通常對于意圖識別模型的訓練需要大量的樣本學習。
在對話系統中,意圖識別任務可以認為是一個典型的文本分類任務。其在給定用戶輸入的情況下,判斷用戶輸入是否屬于預設的意圖類別。對用戶輸入的文本進行分類,需要大量的訓練數據才能達到比較好的效果。但是,當對話系統創建新對話任務時,并沒有大量標準數據,每個意圖往往只有幾個或者十幾個樣本,面對這種情形,利用少量樣本構建意圖分類模型成為自然語言處理技術發展的新方向。
發明內容
鑒于現有技術中的上述缺陷或不足,期望提供一種意圖識別的方法、裝置、設備和介質,來解決現有的語言模型的預訓練過程收斂速度較慢,預測效果較差等問題。
第一方面,本發明實施例提供了一種意圖識別的方法,該方法包括:
獲取訓練樣本集合,該訓練樣本集合包括多個訓練樣本,每個訓練樣本為抽象化意圖的字符組合,該訓練樣本至少包括有序排列的關注字符;
在去重后的訓練樣本集合的總字符數量大于或等于第一閾值時,根據字符出現次數對每個訓練樣本進行壓縮處理,得到壓縮樣本集合;
將壓縮樣本集合輸入到預先構建的掩碼語言模型進行訓練,輸出得到意圖識別結果,該掩碼語言模型用于將輸入的壓縮樣本填充到待訓練的語言提示模板中預設位置后進行訓練。
可選地,根據字符出現次數對每個訓練樣本進行壓縮處理,得到壓縮樣本集合,包括:獲取與訓練樣本集合對應的字頻列表,字頻列表包括訓練樣本集合包含的關注字符和每個關注字符在所述訓練樣本集合中的出現次數;對訓練樣本集合中的每個訓練樣本分別進行字符去重處理,得到去重樣本集合,去重樣本集合包括多個去重樣本,去重樣本與訓練樣本一一對應;根據字頻列表對去重樣本集合中的每個去重樣本分別進行壓縮處理,得到壓縮樣本集合,其中,壓縮樣本集合包括多個壓縮樣本,壓縮樣本與去重樣本一一對應。
可選地,對訓練樣本集合中的每個訓練樣本進行字符去重處理,得到去重樣本集合,包括:針對每個訓練樣本,在確定訓練樣本包含非關注字符時,用預設字符對非關注字符進行替換,得到與訓練樣本對應的替換樣本;對與訓練樣本對應的替換樣本進行字符去重處理,得到與替換樣本對應的去重樣本;將與替換樣本對應的去重樣本添加至去重樣本集合中;在確定訓練樣本不包含非關注字符時,對訓練樣本進行字符去重處理,得到與訓練樣本對應的去重樣本;將與訓練樣本對應的去重樣本添加至去重樣本集合中。
可選地,根據字頻列表對去重樣本集合中的每個去重樣本分別進行壓縮處理,得到壓縮樣本集合,包括:針對每個去重樣本,確定去重樣本的字符長度;在字符長度大于或等于第二閾值時,根據字頻列表對去重樣本進行篩選,得到與去重樣本對應的篩選樣本;對與去重樣本對應的篩選樣本進行壓縮處理,得到與篩選樣本對應的壓縮樣本;將與篩選樣本對應的壓縮樣本添加至壓縮樣本集合中。
可選地,該方法還包括:針對每個去重樣本,在字符長度小于第二閾值時,將去重樣本確定為壓縮樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210262775.0/2.html,轉載請聲明來源鉆瓜專利網。





