[發明專利]文本糾正方法及裝置、電子設備在審
| 申請號: | 201710618374.3 | 申請日: | 2017-07-26 |
| 公開(公告)號: | CN107451106A | 公開(公告)日: | 2017-12-08 |
| 發明(設計)人: | 陳永環 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22 |
| 代理公司: | 北京博思佳知識產權代理有限公司11415 | 代理人: | 林祥 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 糾正 方法 裝置 電子設備 | ||
1.一種文本糾正方法,包括:
獲得待糾正文本;
利用編碼規則確定與所述待糾正文本對應的特征向量;
將所述特征向量輸入文本糾正模型,輸出與所述待糾正文本對應的標準文本,所述文本糾正模型包括編碼網絡和解碼網絡,所述編碼網絡和解碼網絡為循環神經網絡RNN。
2.根據權利要求1所述的方法,在所述利用編碼規則確定與所述待糾正文本對應的特征向量之前,所述方法還包括:
根據所述待糾正文本中的字符所屬的字符類型,從多個候選編碼規則中選取與所述字符類型對應的編碼規則;
所述利用編碼規則確定與所述待糾正文本對應的特征向量包括:
利用選取的編碼規則確定與所述待糾正文本對應的特征向量。
3.根據權利要求1或2所述的方法,所述利用編碼規則確定與所述待糾正文本對應的特征向量包括:
利用編碼規則逐一確定與所述待糾正文本中的每一字符對應的編碼,獲得與所述待糾正文本對應的編碼序列;
根據所述編碼序列確定與所述待糾正文本對應的特征向量。
4.根據權利要求2所述的方法,所述根據所述待糾正文本中的字符所屬的字符類型,從多個候選編碼規則中選取與所述字符類型對應的編碼規則包括:
若所述字符類型為中文,選取漢字編碼規則;否則,選取ASCII編碼規則。
5.根據權利要求1所述的方法,所述文本糾正模型的訓練方法包括:
獲得包括若干樣本對的樣本集,所述樣本對包括一非標準文本和一標準文本;
對于每一樣本對,利用編碼規則將所述非標準文本轉換為第一編碼向量,將所述標準文本轉換為第二編碼向量;
利用所述第一編碼向量和所述第二編碼向量訓練編碼網絡以及解碼網絡,得到文本糾正模型。
6.一種文本糾正裝置,包括:
文本獲得模塊,獲得待糾正文本;
轉換模塊,利用編碼規則確定與所述待糾正文本對應的特征向量;
文本糾正模塊,將所述特征向量輸入文本糾正模型,輸出與所述待糾正文本對應的標準文本,所述文本糾正模型包括編碼網絡和解碼網絡,所述編碼網絡和解碼網絡為循環神經網絡RNN。
7.根據權利要求6所述的裝置,所述裝置還包括:
規則選取模塊,根據所述待糾正文本中的字符所屬的字符類型,從多個候選編碼規則中選取與所述字符類型對應的編碼規則;
所述轉換模塊利用選取的編碼規則確定與所述待糾正文本對應的特征向量。
8.根據權利要求6或7所述的裝置,所述轉換模塊包括:
編碼序列確定模塊,利用選取的編碼規則逐一確定與所述待糾正文本中的每一字符對應的編碼,獲得與所述待糾正文本對應的編碼序列;
向量化模塊,根據所述編碼序列確定與所述待糾正文本對應的特征向量。
9.根據權利要求7所述的裝置,所述規則選取模塊被配置為:若所述字符類型為中文,選取漢字編碼規則;否則,選取ASCII編碼規則。
10.根據權利要求6所述的裝置,所述裝置還包括:
樣本獲得模塊,獲得包括若干樣本對的樣本集,所述樣本對包括一非標準文本和一標準文本;
編碼向量確定模塊,對于每一樣本對,利用編碼規則將所述非標準文本轉換為第一編碼向量,將所述標準文本轉換為第二編碼向量;
模型訓練模塊,利用所述第一編碼向量和所述第二編碼向量訓練編碼網絡以及解碼網絡,得到文本糾正模型。
11.一種電子設備,包括:
處理器;
用于存儲處理器可執行指令的存儲器;
所述處理器被配置為:
獲得待糾正文本;
利用編碼規則確定與所述待糾正文本對應的特征向量;
將所述特征向量輸入文本糾正模型,輸出與所述待糾正文本對應的標準文本,所述文本糾正模型包括編碼網絡和解碼網絡,所述編碼網絡和解碼網絡為循環神經網絡RNN。
12.根據權利要求11所述的電子設備,在所述利用編碼規則確定與所述待糾正文本對應的特征向量之前,還包括:
根據所述待糾正文本中的字符所屬的字符類型,從多個候選編碼規則中選取與所述字符類型對應的編碼規則;
所述利用編碼規則確定與所述待糾正文本對應的特征向量包括:
利用編碼規則逐一確定與所述待糾正文本中的每一字符對應的編碼,獲得與所述待糾正文本對應的編碼序列;
根據所述編碼序列確定與所述待糾正文本對應的特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710618374.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種健身服表面涂層裝置
- 下一篇:一種隔離膜涂布機設備





