[發明專利]訓練語料擴充方法及裝置、意圖識別模型訓練方法及裝置在審
| 申請號: | 202011584220.5 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112651238A | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 李響;徐國強 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/216;G06K9/62 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 譚果林 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 語料 擴充 方法 裝置 意圖 識別 模型 | ||
1.一種訓練語料擴充方法,其特征在于,包括:
獲取樣本文本訓練集以及預設詞向量集;所述樣本文本訓練集中包含至少一個訓練語料;
根據預設詞頻抽取方法,抽取各所述訓練語料中的目標關鍵詞;
自預設詞向量集中,確定與所述目標關鍵詞對應的匹配關鍵詞;
獲取預設擴充倍數值,自所述匹配關鍵詞中根據所述預設擴充倍數值選取預設數值的匹配關鍵詞,并將選取的匹配關鍵詞記錄為替換關鍵詞;
獲取與預設數值的所述替換關鍵詞一一對應的預設數量的替換訓練語料,將所述訓練語料以及預設數值的替換訓練語料記錄為擴充文本訓練集;所述替換訓練語料是指用一個替換關鍵詞替換所述訓練語料中的目標關鍵詞之后生成的語料。
2.如權利要求1所述的訓練語料擴充方法,其特征在于,所述根據預設詞頻抽取方法,抽取各所述訓練語料中的目標關鍵詞,包括:
對所述訓練語料進行分詞處理,得到所述訓練語料中各訓練字詞;
確定各所述訓練字詞在所述訓練語料中的第一占有頻率;
確定各所述訓練字詞在所述樣本文本訓練集中的第二占有頻率;
根據所述第一占有頻率以及所述第二占有頻率,確定各所述訓練語料中的目標關鍵詞。
3.如權利要求2所述的訓練語料擴充方法,其特征在于,所述根據所述第一占有頻率以及所述第二占有頻率,確定各所述訓練語料中的目標關鍵詞,包括:
根據所述第一占有頻率以及所述第二占有頻率,確定各所述訓練字詞的重要值;
將所述重要值中最高的訓練字詞記錄為與該訓練字詞對應的訓練語料的目標關鍵詞。
4.如權利要求1所述的訓練語料擴充方法,其特征在于,所述自預設詞向量集中,確定與所述目標關鍵詞對應的匹配關鍵詞,包括:
自所述預設詞向量集中,將與所述目標關鍵詞對應的訓練詞向量記錄為目標關鍵向量;
獲取所述預設詞向量集中的所有訓練詞向量,并確定所述目標關鍵向量與各所述訓練詞向量之間的向量距離;一個所述訓練詞向量關聯一個訓練字詞;
將各所述向量距離與預設距離閾值進行比較,并將小于或等于預設距離閾值的向量距離對應的訓練詞向量關聯的訓練字詞,記錄為所述匹配關鍵詞;
將所述匹配關鍵詞按照向量距離從小到大的順序插入關鍵詞序列中。
5.如權利要求4所述的訓練語料擴充方法,其特征在于,所述獲取預設擴充倍數值,自所述匹配關鍵詞中選取預設數值的匹配關鍵詞并將其記錄為替換關鍵詞,包括:
將所述預設擴充倍數值與1之間的差值記錄為所述預設數值;
自所述關鍵詞序列中選取序列在前的預設數值的匹配關鍵詞,并將選取的匹配關鍵詞記錄為所述替換關鍵詞。
6.一種意圖識別模型訓練方法,其特征在于,包括:
獲取預設標注樣本訓練集;所述預設標注數據訓練集中包含至少一個標注樣本語料;
檢測所述標注樣本語料的總數量,并在所述總數量小于預設閾值時,根據如權利要求1至5任一項所述訓練語料擴充方法,生成與所述標注樣本語料對應的樣本文本訓練集;一個所述樣本文本訓練集關聯一個標注樣本語料;所述樣本文本訓練集中包含至少一個替換訓練語料;
將所述標注樣本語料輸入至包含初始參數的預設識別模型中,得到與所述標注樣本語料對應的第一損失值;同時,將所述標注樣本語料以及所述替換訓練語料輸入至所述預設識別模型中,得到第二損失值;
將所述第一損失值與所述第二損失值之和記錄為所述預設識別模型的識別損失值;
在所述識別損失值未達到預設的收斂條件時,更新迭代所述初始識別模型的初始參數,直至所述識別損失值達到所述預設的收斂條件時,將收斂之后的所述初始識別模型記錄為意圖識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011584220.5/1.html,轉載請聲明來源鉆瓜專利網。





