[發明專利]訓練數據生成及模型訓練方法、裝置及計算機存儲介質在審
| 申請號: | 202211064781.1 | 申請日: | 2022-09-01 |
| 公開(公告)號: | CN115470331A | 公開(公告)日: | 2022-12-13 |
| 發明(設計)人: | 周元輔;晏超 | 申請(專利權)人: | 蕪湖云從科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06K9/62 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 李興迪 |
| 地址: | 241002 安徽省蕪湖市弋*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 數據 生成 模型 方法 裝置 計算機 存儲 介質 | ||
本申請提供一種訓練數據生成及模型訓練方法、裝置及存儲介質,主要包括根據隨機確定的粒度級別,確定目標文本的構造位置,根據隨機確定的片段長度、目標文本的構造位置、確定目標文本的構造片段,根據隨機確定的構造規則、目標文本的構造位置和構造片段,重構目標文本,生成目標文本的構造文本,并根據目標文本和構造文本,獲得目標文本的訓練數據。借此,本申請可靈活且批量地生成非平滑文本訓練數據,以供執行文本處理模型的文本平滑預測訓練,從而降低模型訓練成本并提高模型預測性能。
技術領域
本申請實施例涉及模型訓練技術領域,特別涉及一種訓練數據生成及模型訓練方法、裝置及計算機存儲介質。
背景技術
自動語音識別(ASR)是利用計算機將連續語音轉寫為文字的技術。隨著深度學習技術的不斷發展,目前ASR識別準確率有了很大提升,在商業領域取得了很大的成功。但是在實際使用場景中,受限于說話人的表述質量,即使ASR系統的識別量較高,識別結果的文本也往往存在不平滑的現象,對于后續的用戶閱讀感受仍然不夠友好。此外,不平滑的語音識別結果也會影響后續的自然語言處理流程的分析效果。
目前文本平滑處理的常見算法主要包括兩種,其一是規則匹配的方式,其二是使用大量的標注數據進行深度神經網絡的訓練。然而,上述兩種算法在實際應用中都存在很大的限制。
對于規則匹配的方式,需要大量的專家知識來總結規則或者模式,然而,由于實際應用場景中,文本不平滑的現象非常靈活多變,導致規則匹配為主的算法,難以很好地適應靈活多變的實際應用場景。
對于使用大量標注數據訓練深度神經網絡的方式,在算法效果上雖然更勝一籌,但是可以支持實際使用的大量標注數據難以獲取。首先,中文的不平滑通用開源數據幾乎沒有。其次,對于不同領域需要的領域語料,更是只能全部依賴于人工標注。最后,不平滑語料的標注難度也比較大,再加上很多系統方案需要同時使用句法等其他標注信息,因此大規模的人工標注難以實現。
有鑒于此,需要一種訓練數據生成方案,以解決現有文本平滑處理模型的訓練數據難以獲得的技術問題。
發明內容
鑒于上述問題,本申請提供一種訓練數據生成及模型訓練方案,可批量且靈活地生成不同類型的非平滑文本訓練數據,以降低模型訓練成本并提高模型訓練效果。
根據本申請實施例的第一方面,提供一種訓練數據生成方法,包括:根據隨機確定的粒度級別,確定目標文本的構造位置;根據隨機確定的片段長度、所述目標文本的構造位置、確定所述目標文本的構造片段;根據隨機確定的構造規則、所述目標文本的構造位置和構造片段,重構所述目標文本,生成所述目標文本的構造文本;根據所述目標文本和所述構造文本,獲得所述目標文本的訓練數據。
根據本申請實施例的第二方面,提供一種模型訓練方法,包括:利用文本處理模型,對訓練數據中的構造文本執行文本平滑處理,獲得所述構造文本的預測文本;根據所述訓練數據中的目標文本、所述預測文本,獲取所述文本處理模型的損失函數;根據所述損失函數更新所述文本處理模型,直至所述損失函數滿足訓練結束條件,以獲得訓練好的文本處理模型;其中,所述訓練數據是由上述第一方面所述的訓練數據生成方法所生成的。
根據本申請實施例的第三方面,提供一種訓練數據生成裝置,包括:構造位置確定模塊,用于根據隨機確定的粒度級別,確定目標文本的構造位置;構造片段確定模塊,用于根據隨機確定的片段長度、所述目標文本的構造位置、確定所述目標文本的構造片段;文本重構模塊,根據隨機確定的構造規則、所述目標文本的構造位置和構造片段,重構所述目標文本,生成所述目標文本的構造文本;數據生成模塊,用于根據所述目標文本和所述構造文本,獲得所述目標文本的訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蕪湖云從科技有限公司,未經蕪湖云從科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211064781.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





