[發明專利]數據處理方法、文本識別模型的生成方法和文本識別方法有效
| 申請號: | 202110581037.8 | 申請日: | 2021-05-27 |
| 公開(公告)號: | CN113033200B | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 寧亞光 | 申請(專利權)人: | 北京世紀好未來教育科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/126;G06F40/216;G06F16/35;G06N3/08 |
| 代理公司: | 北京市鑄成律師事務所 11313 | 代理人: | 王姍姍;郭麗祥 |
| 地址: | 100080 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 文本 識別 模型 生成 | ||
本申請提出一種數據處理方法、文本識別模型的生成方法和文本識別方法,其中,數據處理方法包括:對待處理文本進行分詞處理,得到分詞結果;對分詞結果中的分詞進行編碼,得到分詞結果的編碼,其中,分詞結果的編碼包括至少兩類編碼,至少兩類編碼中各類編碼為分詞關于各類字符的編碼,各類字符中至少一類字符屬于數學字符;根據分詞結果的編碼,確定訓練樣本。本申請獲得的訓練樣本所訓練的模型,能夠提高處理數學相關自然語言處理任務的能力。
技術領域
本申請涉及數據處理領域,尤其涉及數據處理方法、文本識別模型的生成方法和文本識別方法。
背景技術
由于目前的自然語言處理主要的應用場景為新聞、閱讀、翻譯等等場景,致使其在預訓練階段的編碼和字典比較關注于自然語序和語義的理解。但是在數學題的場景中,數學題不僅包含大量的自然語句,同時也夾雜著大量的數學符號和數字。申請人發現,現有的基于完全自然語言訓練得到的模型,可能不支持大多數的數學符號,又或者是沒有對數學字符進行特殊考慮,致使經過這樣訓練的模型在數學題相關的應用場景下表現不佳。
發明內容
本申請實施例提供一種數據處理方法、文本識別模型的生成方法和文本識別方法,以解決相關技術存在的問題,技術方案如下:
第一方面,本申請實施例提供了一種數據處理方法,包括:
對待處理文本進行分詞處理,得到分詞結果;
對分詞結果中的分詞進行編碼,得到分詞結果的編碼,其中,分詞結果的編碼包括至少兩類編碼,至少兩類編碼中各類編碼為分詞關于各類字符的編碼,各類字符中至少一類字符屬于數學字符;
根據分詞結果的編碼,確定訓練樣本。
第二方面,本申請實施例提供了一種文本識別模型的生成方法,包括:
獲取訓練數據,訓練數據包括訓練樣本以及訓練樣本的標簽,其中訓練樣本包括上述第一方面的數據處理方法所確定的訓練樣本;
根據訓練數據訓練預設神經網絡,訓練完成后得到文本識別模型,文本識別模型能夠對包含數學字符的文本進行識別。
第三方面,本申請實施例提供了一種文本識別方法,包括:
對待識別文本進行分詞處理,得到分詞結果;
對分詞結果中的分詞進行編碼,得到分詞結果的編碼,其中,分詞結果的編碼包括至少兩類編碼,至少兩類編碼中各類編碼為分詞關于各類字符的編碼,各類字符中至少一類字符屬于數學字符;
將分詞結果的編碼輸入文本識別模型,得到文本識別結果,其中,文本識別模型為利用上述第二方面的文本識別模型的生成方法所生成的。
第四方面,本申請實施例提供了一種數據處理裝置,包括:
第一分詞模塊,用于對待處理文本進行分詞處理,得到分詞結果;
第一編碼模塊,用于對分詞結果中的分詞進行編碼,得到分詞結果的編碼,其中,分詞結果的編碼包括至少兩類編碼,至少兩類編碼中各類編碼為分詞關于各類字符的編碼,各類字符中至少一類字符屬于數學字符;
訓練樣本確定模塊,用于根據分詞結果的編碼,確定訓練樣本。
第五方面,本申請實施例提供了一種文本識別模型的生成裝置,包括:
訓練數據獲取模塊,用于獲取訓練數據,訓練數據包括訓練樣本以及訓練樣本的標簽,其中訓練樣本包括上述第四方面的數據處理裝置所確定的訓練樣本;
訓練模塊,用于根據訓練數據訓練預設神經網絡,訓練完成后得到文本識別模型,文本識別模型能夠對包含數學字符的文本進行識別。
第六方面,本申請實施例提供了一種文本識別裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京世紀好未來教育科技有限公司,未經北京世紀好未來教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110581037.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種模型生成方法、裝置以及用于模型生成的裝置
- 下一篇:采油用封隔器





