[發(fā)明專利]文本糾正方法及裝置、電子設備在審
| 申請?zhí)枺?/td> | 201710618374.3 | 申請日: | 2017-07-26 |
| 公開(公告)號: | CN107451106A | 公開(公告)日: | 2017-12-08 |
| 發(fā)明(設計)人: | 陳永環(huán) | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22 |
| 代理公司: | 北京博思佳知識產(chǎn)權代理有限公司11415 | 代理人: | 林祥 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 糾正 方法 裝置 電子設備 | ||
技術領域
本說明書一個或多個實施例涉及機器學習技術領域,尤其涉及一種文本糾正方法及裝置、電子設備。
背景技術
對各類文本進行識別的技術被應用于諸多場景中,例如:識別黑名單用戶。其中,待識別的文本可例如:人名、地名、公司名等。
目前,若待識別的文本并非預定義的標準形式(如拼寫錯誤或非簡寫形式),則可能導致該文本無法被成功識別。例如:某文本的標準形式為:“baidu”,但因拼寫錯誤,實際輸入的文本為:“baido”。可見,出現(xiàn)了對文本進行糾正的需求。
發(fā)明內容
有鑒于此,本說明書一個或多個實施例提供一種文本糾正方法及裝置、電子設備。
為實現(xiàn)上述目的,本說明書一個或多個實施例提供的技術方案如下:
一種文本糾正方法,包括:
獲得待糾正文本;
利用編碼規(guī)則確定與所述待糾正文本對應的特征向量;
將所述特征向量輸入文本糾正模型,輸出與所述待糾正文本對應的標準文本,所述文本糾正模型包括編碼網(wǎng)絡和解碼網(wǎng)絡,所述編碼網(wǎng)絡和解碼網(wǎng)絡為循環(huán)神經(jīng)網(wǎng)絡RNN。
一種文本糾正裝置,包括:
文本獲得模塊,獲得待糾正文本;
轉換模塊,利用編碼規(guī)則確定與所述待糾正文本對應的特征向量;
文本糾正模塊,將所述特征向量輸入文本糾正模型,輸出與所述待糾正文本對應的標準文本,所述文本糾正模型包括編碼網(wǎng)絡和解碼網(wǎng)絡,所述編碼網(wǎng)絡和解碼網(wǎng)絡為循環(huán)神經(jīng)網(wǎng)絡RNN。
一種電子設備,包括:
處理器;
用于存儲處理器可執(zhí)行指令的存儲器;
所述處理器被配置為:
獲得待糾正文本;
利用編碼規(guī)則確定與所述待糾正文本對應的特征向量;
將所述特征向量輸入文本糾正模型,輸出與所述待糾正文本對應的標準文本,所述文本糾正模型包括編碼網(wǎng)絡和解碼網(wǎng)絡,所述編碼網(wǎng)絡和解碼網(wǎng)絡為循環(huán)神經(jīng)網(wǎng)絡RNN。
通過以上技術方案可以看出,基于通過機器學習獲得的包括編碼網(wǎng)絡和解碼網(wǎng)絡的文本糾正模型,在獲得待糾正文本后,可將待糾正文本對應的特征向量輸入上述文本糾正模型,以輸出標準文本,實現(xiàn)了對文本進行糾正的功能,進而在文本識別場景中,可提高文本識別率。
附圖說明
圖1為根據(jù)一示例性實施例示出的文本糾正模型的結構;
圖2為根據(jù)一示例性實施例示出的一種文本糾正方法的流程;
圖3為根據(jù)一示例性實施例示出的一種文本糾正裝置的框圖;
圖4為根據(jù)一示例性實施例示出的另一種文本糾正裝置的框圖。
具體實施方式
本說明書提出一種文本糾正方法,利用機器學習獲得的文本糾正模型來對文本進行糾正,其中,文本糾正模型可采用seq2seq(Sequence-to-Sequence)模型。該seq2seq模型可以用于糾正的文本包括但不限于:各種對象(如地點、人、公司)的名稱、用于查詢的Query詞條。其中,對于每一種標準文本,可以對應于多種非標準文本,標準文本可為預定義的一種標準表達,非標準文本可為在標準表達的基礎所作的部分字符的改變,例如,某種標準文本為:“Luck did better than Huan”,與該標準文本對應的非標準文本可為:“Luck did better then Huan”或“Luck do better than Huan”等。在實際的文本識別場景中,期望將改寫或拼寫錯誤等造成的非標準文本識別成與之對應的標準文本,以達到較高的文本識別率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710618374.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種健身服表面涂層裝置
- 下一篇:一種隔離膜涂布機設備





