[發明專利]語法糾錯模型的訓練方法及裝置、語法糾錯方法及裝置在審
| 申請號: | 202010655492.3 | 申請日: | 2020-07-09 |
| 公開(公告)號: | CN111767731A | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 何蘇;王亮;趙薇;劉金龍;柳景明;郭常圳 | 申請(專利權)人: | 北京猿力未來科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06N3/04 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 100102 北京市朝陽區廣順南大*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語法 糾錯 模型 訓練 方法 裝置 | ||
1.一種語法糾錯模型的訓練方法,其特征在于,包括:
基于第一訓練集進行數據擴展處理獲得第二訓練集;
基于所述第二訓練集獲取第二源樣本語句以及第二目標樣本語句;
將所述第二源樣本語句輸入至語法糾錯模型,生成糾錯樣本語句;
基于所述糾錯樣本語句與所述第二目標樣本語句確定損失值;
基于所述損失值對所述語法糾錯模型進行迭代訓練,直至達到訓練停止條件。
2.根據權利要求1所述的訓練方法,其特征在于,所述第一訓練集包括第一源樣本語句和第一目標樣本語句;
所述基于第一訓練集進行數據擴展處理獲得第二訓練集,包括:
對所述第一源樣本語句和第一目標樣本語句進行預處理;
基于所述第一訓練集中詞單元的出現頻率,對所述詞單元進行權重賦值,構建詞典;
根據所述詞典對所述第一訓練集的源樣本語句包含的語句進行腐化處理,獲得數據擴展的第二源樣本語句;根據所述第二源樣本語句以及所述第二源樣本語句對應的第二目標樣本語句構建所述第二訓練集。
3.根據權利要求2所述的訓練方法,其特征在于,所述腐化處理包括詞插入處理和/或詞替代處理;
所述根據所述詞典對所述第一訓練集的源樣本語句包含的語句進行腐化處理,獲得數據擴展的第二源樣本語句,包括:
根據所述詞典對所述第一源樣本語句進行詞插入處理,獲得數據擴展的第二源樣本語句;和/或根據所述詞典對所述第一源樣本語句進行詞替代處理,獲得數據擴展的第二源樣本語句。
4.根據權利要求3所述的訓練方法,其特征在于,所述根據所述詞典對所述第一源樣本語句進行詞插入處理,獲得數據擴展的第二源樣本語句,包括:
a1、獲取所述第一源樣本語句以及第一源樣本語句的句長n;
a2、基于所述第一源樣本語句的句長n生成對應的第一數組;
其中,所述第一數組中每個數值均為隨機生成的(0,1)范圍內的數值;
且所述第一數組中每個數值均具有與該數值在所述第一數組中位置順序對應的下標i,所述下標i的取值范圍是(0,n-1)范圍內的整數;
a3、根據預設的第一閾值,獲取所述第一數組中小于所述第一閾值的數值對應的下標i;
a4、基于權重隨機選擇所述詞典中的一個詞單元,插入所述第一源樣本語句中的第i位置,生成詞插入處理后數據擴展的第二源樣本語句。
5.根據權利要求3所述的訓練方法,其特征在于,所述根據所述詞典對所述第一源樣本語句進行詞替代處理,獲得數據擴展的第二源樣本語句,包括:
b1、獲取所述第一源樣本語句以及第一源樣本語句的句長n;
b2、基于所述第一源樣本語句的句長生成對應的第二數組,其中,所述第二數組中每個數值均為隨機生成的(0,1)范圍內的數值;
且所述第二數組中每個數值均具有與該數值在所述第二數組中位置順序對應的下標i,所述下標i的取值范圍是(0,n-1)范圍內的整數;
b3、根據預設的第二閾值,獲取所述第二數組中小于所述第二閾值的數值對應的下標i;
b4、基于權重隨機選擇所述詞典中的一個詞單元,將所述第一源樣本語句中第i位置的詞單元替換為所述隨機選擇的詞單元,生成詞替代處理后數據擴展的第二源樣本語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京猿力未來科技有限公司,未經北京猿力未來科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010655492.3/1.html,轉載請聲明來源鉆瓜專利網。





