[發明專利]訓練語料擴充方法及裝置、意圖識別模型訓練方法及裝置在審
| 申請號: | 202011584220.5 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112651238A | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 李響;徐國強 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/216;G06K9/62 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 譚果林 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 語料 擴充 方法 裝置 意圖 識別 模型 | ||
本發明涉及語義解析技術領域,揭露了一種訓練語料擴充方法及裝置、意圖識別模型訓練方法及裝置。該訓練語料擴充方法通過獲取樣本文本訓練集以及預設詞向量集;根據預設詞頻抽取方法,抽取各所述訓練語料中的目標關鍵詞;自預設詞向量集中,確定與所述目標關鍵詞對應的匹配關鍵詞;獲取預設擴充倍數值,自所述匹配關鍵詞中根據所述預設擴充倍數值選取預設數值的匹配關鍵詞,并將選取的匹配關鍵詞記錄為替換關鍵詞;獲取與預設數值的所述替換關鍵詞一一對應的預設數量的替換訓練語料,將所述訓練語料以及預設數值的替換訓練語料記錄為擴充文本訓練集。本發明有效地解決了訓練語料不足的問題,進而可以為模型提供大量標注數據,提高模型準確率。
技術領域
本發明涉及語義解析技術領域,尤其涉及一種訓練語料擴充方法及裝置、意圖識別模型訓練方法及裝置。
背景技術
隨著科學技術的發展,自然語言處理技術領域也快速發展,例如自然語言處理技術領域可以應用于智能多輪對話系統、文本相似度判定系統等系統中。其中,智能多輪對話系統需要根據客戶的對話內容識別其意圖,該意圖用于后續的流程控制以及對話生成,因此意圖識別是智能多輪對話中的關鍵技術。
現有技術中,意圖識別常常會采用意圖識別模型進行意圖提取,對于意圖識別模型的訓練需要采用帶有標簽的數據,而現有的帶有標簽的數據需要從歷史對話信息中篩選得到后,通過人為標注的方法進行標簽標注,但是,通過該方式得到的已標注標簽的數據量往往不夠充足,進而導致意圖識別模型無法得到完整充分的訓練,從而使得意圖識別模型的準確率較低。
發明內容
本發明實施例提供一種訓練語料擴充方法及裝置、意圖識別模型訓練方法及裝置,以解決由于已標注標簽的數據量不充足,導致意圖識別模型的準確率較低問題。
一種訓練語料擴充方法,包括:
獲取樣本文本訓練集以及預設詞向量集;所述樣本文本訓練集中包含至少一個訓練語料;
根據預設詞頻抽取方法,抽取各所述訓練語料中的目標關鍵詞;
自預設詞向量集中,確定與所述目標關鍵詞對應的匹配關鍵詞;
獲取預設擴充倍數值,自所述匹配關鍵詞中根據所述預設擴充倍數值選取預設數值的匹配關鍵詞,并將選取的匹配關鍵詞記錄為替換關鍵詞;
獲取與預設數值的所述替換關鍵詞一一對應的預設數量的替換訓練語料,將所述訓練語料以及預設數值的替換訓練語料記錄為擴充文本訓練集;所述替換訓練語料是指用一個替換關鍵詞替換所述訓練語料中的目標關鍵詞之后生成的語料。
一種意圖識別模型訓練方法,包括:
獲取預設標注樣本訓練集;所述預設標注數據訓練集中包含至少一個標注樣本語料;
檢測所述標注樣本語料的總數量,并在所述總數量小于預設閾值時,根據上述訓練語料擴充方法,生成與所述標注樣本語料對應的樣本文本訓練集;一個所述樣本文本訓練集關聯一個標注樣本語料;所述樣本文本訓練集中包含至少一個替換訓練語料;
將所述標注樣本語料輸入至包含初始參數的預設識別模型中,得到與所述標注樣本語料對應的第一損失值;同時,將所述標注樣本語料以及所述替換訓練語料輸入至所述預設識別模型中,得到第二損失值;
將所述第一損失值與所述第二損失值之和記錄為所述預設識別模型的識別損失值;
在所述識別損失值未達到預設的收斂條件時,更新迭代所述初始識別模型的初始參數,直至所述識別損失值達到所述預設的收斂條件時,將收斂之后的所述初始識別模型記錄為意圖識別模型。
一種訓練語料擴充裝置,包括:
數據獲取模塊,用于獲取樣本文本訓練集以及預設詞向量集;所述樣本文本訓練集中包含至少一個訓練語料;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011584220.5/2.html,轉載請聲明來源鉆瓜專利網。





