[發明專利]文本糾錯及其模型訓練方法、裝置、存儲介質及設備在審

申請號：	202211529540.X	申請日：	2022-11-30
公開（公告）號：	CN115730585A	公開（公告）日：	2023-03-03
發明（設計）人：	吳邦譽;林洋港;楊衛強;朱浩齊	申請（專利權）人：	杭州網易智企科技有限公司
主分類號：	G06F40/232	分類號：	G06F40/232;G06F40/30;G06F18/214;G06F18/24;G06F18/25;G06N3/0464;G06N3/08
代理公司：	北京律智知識產權代理有限公司 11438	代理人：	孫寶海
地址：	310052 浙江省杭州市***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本糾錯及其模型訓練方法裝置存儲介質設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種文本糾錯模型訓練方法，其特征在于，包括：

對文本數據中的每個字符進行特征提取，得到字符特征，所述字符特征包括讀音特征和字形特征，其中所述每個字符攜帶有字符糾錯標簽；

利用所述字符特征對待訓練模型進行訓練，直至達到訓練停止條件，以將訓練得到的模型作為文本糾錯模型。

2.根據權利要求1所述的文本糾錯模型訓練方法，其特征在于，在所述字符特征包括讀音特征的情況下，所述對文本數據中的每個字符進行特征提取，得到字符特征，包括：

獲取所述文本數據中每個字符的拼音，所述拼音用于指示字符的讀音；

通過語音識別網絡對每個字符對應的拼音進行編碼，得到每個字符的讀音特征。

3.根據權利要求1所述的文本糾錯模型訓練方法，其特征在于，在所述字符特征包括字形特征的情況下，所述對文本數據中的每個字符進行特征提取，得到字符特征，包括：

獲取相應字符的字形結構及字根，以基于所述字形結構及字根確定相應字符的字形特征。

4.一種文本糾錯方法，其特征在于，包括：

對待糾錯文本數據進行特征提取，得到字符特征，所述字符特征包括讀音特征和字形特征；

將所述字符特征輸入文本糾錯模型，輸出預測文本。

5.根據權利要求4所述的文本糾錯方法，其特征在于，在所述字符特征包括讀音特征的情況下，所述對待糾錯文本數據進行特征提取，得到字符特征，包括：

獲取所述待糾錯文本數據中每個字符的拼音，所述拼音用于指示字符的讀音；

通過語音識別網絡對每個字符對應的拼音進行編碼，得到每個字符的讀音特征。

6.根據權利要求4所述的文本糾錯方法，其特征在于，在所述字符特征包括字形特征的情況下，所述對待糾錯文本數據進行特征提取，得到字符特征，包括：

獲取相應字符的字形結構及字根，以基于所述字形結構及字根確定相應字符的字形特征。

7.一種文本糾錯模型訓練裝置，其特征在于，包括：

第一特征提取模塊，對文本數據中的每個字符進行特征提取，得到字符特征，所述字符特征包括讀音特征和字形特征，其中所述每個字符攜帶有字符糾錯標簽；

訓練模塊，利用所述字符特征對待訓練模型進行訓練，直至達到訓練停止條件，以將訓練得到的模型作為文本糾錯模型。

8.一種文本糾錯裝置，其特征在于，包括：

第二特征提取模塊，對待糾錯文本數據進行特征提取，得到字符特征，所述字符特征包括讀音特征和字形特征；

預測模塊，將所述字符特征輸入文本糾錯模型，輸出預測文本。

9.一種存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被執行時實現：

權利要求1～3中任一項所述的文本糾錯模型訓練方法；或

權利要求4～6任一項所述的文本糾錯方法。

10.一種電子設備，其特征在于，包括：

顯示器；

處理單元；以及

存儲單元，用于存儲所述處理單元的可執行指令；

其中，所述處理單元配置為經由執行所述可執行指令來執行：

權利要求1～3中任一項所述的文本糾錯模型訓練方法；或

權利要求4～6任一項所述的文本糾錯方法。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于杭州網易智企科技有限公司，未經杭州網易智企科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202211529540.X/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種適用于磷酸鐵鋰電池的電解液、鋰二次電池
下一篇：一種車機訂閱事件的處理方法、裝置、設備及介質

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】