[發明專利]語法糾錯模型的訓練方法及裝置、語法糾錯方法及裝置在審
| 申請號: | 202010655492.3 | 申請日: | 2020-07-09 |
| 公開(公告)號: | CN111767731A | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 何蘇;王亮;趙薇;劉金龍;柳景明;郭常圳 | 申請(專利權)人: | 北京猿力未來科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06N3/04 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 劉曉楠 |
| 地址: | 100102 北京市朝陽區廣順南大*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語法 糾錯 模型 訓練 方法 裝置 | ||
本申請涉及一種語法糾錯模型的訓練方法及裝置、語法糾錯方法及裝置、計算設備及計算機可讀存儲介質。訓練方法包括:基于第一訓練集進行數據擴展處理獲得第二訓練集;基于所述第二訓練集獲取第二源樣本語句以及第二目標樣本語句;將所述第二源樣本語句輸入至語法糾錯模型,生成糾錯樣本語句;基于所述糾錯樣本語句與所述第二目標樣本語句確定損失值;基于所述損失值對所述語法糾錯模型進行迭代訓練,直至達到訓練停止條件。通過對已有的訓練集進行數據增強處理,達到對訓練集進行自動擴充的目的,有效地減少了人工勞動。
技術領域
本申請涉及計算機技術領域,特別涉及一種語法糾錯模型的訓練方法及裝置、語法糾錯方法及裝置、計算設備及計算機可讀存儲介質。
背景技術
在利用神經網絡模型進行中文語法糾錯時,往往需要大量的標注數據。對于缺少標注數據的情況,往往采用雇傭標注人員對數據進行標注,而人工標注數據往往耗時耗力。
現有技術中存在的技術問題為:讓機器自動的對有語法錯誤的中文語句進行糾錯,往往達不到預期的效果,其中很重要的一個原因就是缺乏大量的標注數據。這是因為中文語法錯誤種類繁多,并且不同的標注人員可能對同一錯誤有不同的標注結果,所以這也就要求我們采取某種自動化的方式來擴充訓練集。
發明內容
有鑒于此,本申請提供了一種語法糾錯模型的訓練方法及裝置、語法糾錯方法及裝置、計算設備及計算機可讀存儲介質,以解決現有技術中存在的技術缺陷。
具體來說本申請提供了如下技術方案:
本申請提供了一種語法糾錯模型的訓練方法,包括:
基于第一訓練集進行數據擴展處理獲得第二訓練集;
基于所述第二訓練集獲取第二源樣本語句以及第二目標樣本語句;
將所述第二源樣本語句輸入至語法糾錯模型,生成糾錯樣本語句;
基于所述糾錯樣本語句與所述第二目標樣本語句確定損失值;
基于所述損失值對所述語法糾錯模型進行迭代訓練,直至達到訓練停止條件。
可選地,對于所述的訓練方法,其中,所述第一訓練集包括第一源樣本語句和第一目標樣本語句;
所述基于第一訓練集進行數據擴展處理獲得第二訓練集,包括:
對所述第一源樣本語句和第一目標樣本語句進行預處理;
基于所述第一訓練集中詞單元的出現頻率,對所述詞單元進行權重賦值,構建詞典;
根據所述詞典對所述第一訓練集的源樣本語句包含的語句進行腐化處理,獲得數據擴展的第二源樣本語句;根據所述第二源樣本語句以及所述第二源樣本語句對應的第二目標樣本語句構建所述第二訓練集。
可選地,對于所述的訓練方法,其中,所述腐化處理包括詞插入處理和/或詞替代處理;
所述根據所述詞典對所述第一訓練集的源樣本語句包含的語句進行腐化處理,獲得數據擴展的第二源樣本語句,包括:
根據所述詞典對所述第一源樣本語句進行詞插入處理,獲得數據擴展的第二源樣本語句;和/或根據所述詞典對所述第一源樣本語句進行詞替代處理,獲得數據擴展的第二源樣本語句。
可選地,對于所述的訓練方法,其中,所述根據所述詞典對所述第一源樣本語句進行詞插入處理,獲得數據擴展的第二源樣本語句,包括:
a1、獲取所述第一源樣本語句以及第一源樣本語句的句長n;
a2、基于所述第一源樣本語句的句長n生成對應的第一數組;
其中,所述第一數組中每個數值均為隨機生成的(0,1)范圍內的數值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京猿力未來科技有限公司,未經北京猿力未來科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010655492.3/2.html,轉載請聲明來源鉆瓜專利網。





