[發明專利]意圖識別的方法、裝置、設備和介質在審
| 申請號: | 202210262775.0 | 申請日: | 2022-03-17 |
| 公開(公告)號: | CN114706943A | 公開(公告)日: | 2022-07-05 |
| 發明(設計)人: | 汪碩芃;張林箭;宋有偉;張聰;呂唐杰;范長杰;胡志鵬 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 北京元合聯合知識產權代理事務所(特殊普通合伙) 11653 | 代理人: | 李非非 |
| 地址: | 310056 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 意圖 識別 方法 裝置 設備 介質 | ||
1.一種意圖識別的方法,其特征在于,該方法包括:
獲取訓練樣本集合,所述訓練樣本集合包括多個訓練樣本,每個所述訓練樣本為抽象化意圖的字符組合,所述訓練樣本至少包括有序排列的關注字符;
在去重后的所述訓練樣本集合的總字符數量大于或等于第一閾值時,根據字符出現次數對每個所述訓練樣本進行壓縮處理,得到壓縮樣本集合;
將所述壓縮樣本集合輸入到預先構建的掩碼語言模型進行訓練,輸出得到意圖識別結果,所述掩碼語言模型用于將輸入的壓縮樣本填充到待訓練的語言提示模板中預設位置后進行訓練。
2.根據權利要求1所述的方法,其特征在于,所述根據字符出現次數對每個所述訓練樣本進行壓縮處理,得到壓縮樣本集合,包括:
獲取與所述訓練樣本集合對應的字頻列表,所述字頻列表包括所述訓練樣本集合包含的關注字符和每個所述關注字符在所述訓練樣本集合中的出現次數;
對所述訓練樣本集合中的每個所述訓練樣本分別進行字符去重處理,得到去重樣本集合,所述去重樣本集合包括多個去重樣本,所述去重樣本與所述訓練樣本一一對應;
根據所述字頻列表對所述去重樣本集合中的每個所述去重樣本分別進行壓縮處理,得到所述壓縮樣本集合,其中,所述壓縮樣本集合包括多個壓縮樣本,所述壓縮樣本與所述去重樣本一一對應。
3.根據權利要求2所述的方法,其特征在于,所述對所述訓練樣本集合中的每個所述訓練樣本進行字符去重處理,得到去重樣本集合,包括:
針對每個訓練樣本,在確定所述訓練樣本包含非關注字符時,用預設字符對所述非關注字符進行替換,得到與所述訓練樣本對應的替換樣本;
對與所述訓練樣本對應的替換樣本進行字符去重處理,得到與所述替換樣本對應的去重樣本;
將與所述替換樣本對應的去重樣本添加至所述去重樣本集合中;
在確定所述訓練樣本不包含非關注字符時,對所述訓練樣本進行字符去重處理,得到與所述訓練樣本對應的去重樣本;
將與所述訓練樣本對應的去重樣本添加至所述去重樣本集合中。
4.根據權利要求2所述的方法,其特征在于,所述根據所述字頻列表對所述去重樣本集合中的每個所述去重樣本分別進行壓縮處理,得到所述壓縮樣本集合,包括:
針對每個所述去重樣本,確定所述去重樣本的字符長度;
在所述字符長度大于或等于第二閾值時,根據所述字頻列表對所述去重樣本進行篩選,得到與所述去重樣本對應的篩選樣本;
對與所述去重樣本對應的篩選樣本進行壓縮處理,得到與所述篩選樣本對應的壓縮樣本;
將與所述篩選樣本對應的壓縮樣本添加至所述壓縮樣本集合中。
5.根據權利要求4所述的方法,其特征在于,所述方法還包括:
針對每個所述去重樣本,在所述字符長度小于第二閾值時,將所述去重樣本確定為壓縮樣本。
6.根據權利要求4所述的方法,其特征在于,所述根據所述字頻列表對所述去重樣本進行篩選,得到與所述去重樣本對應的篩選樣本,包括:
按照所述字頻列表的排列順序,從所述字頻列表的首個關注字符開始,確定候選字符集合,所述候選字符集合包括連續的第一閾值個數的關注字符,其中,所述字頻列表是按照關注字符在所述訓練樣本集合中出現次數從高到低的順序進行排序的;
根據所述候選字符集合對所述去重樣本包含的關注字符進行篩選,得到與所述去重樣本對應的篩選樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210262775.0/1.html,轉載請聲明來源鉆瓜專利網。





