[發明專利]錯詞糾正方法、裝置、設備及存儲介質在審
| 申請號: | 202010581289.6 | 申請日: | 2020-06-23 |
| 公開(公告)號: | CN111695343A | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 邱煜 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/289;G06F40/205 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 劉挽瀾 |
| 地址: | 518052 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 糾正 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能領域,公開了一種基于錯詞糾正方法、裝置、設備及存儲介質。錯詞糾正方法包括:獲取待處理的自然語言文本;基于網頁爬取生成的易錯詞庫,對所述自然語言文本進行預糾正,得到第一文本;對所述第一文本進行分詞和序列標注,得到文本子詞和對應的標注類型;基于預置候選字詞表,生成所述錯誤起點類和所述錯誤內容類的文本子詞對應的備選字詞,并將所述備選字詞依次寫入所述第一文本中的對應位置,分別得到對應的第二文本;計算各所述第二文本的困惑度值并相互進行大小比較,將最小困惑度值對應的第二文本作為正確文本輸出。此外,本發明還涉及區塊鏈技術,易錯詞庫和候選字詞表存儲于區塊鏈中。本發明能夠對自然語言文本識別中的專業詞和生僻字進行糾錯,擴大錯詞糾正的應用范圍。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種錯詞糾正方法、裝置、設備及存儲介質。
背景技術
NLP(Natural Language Processing,自然語言處理)是人工智能領域的一個子域,它主要解決人際交互問題。NLP通過計算技術學習、理解然后產生人類語言。NLP的第一步是獲取目標語句。目前通過ORC(Optical Character Recognition,光學字符識別)、ASR(Automatic Speech Recognition,自動語音識)及用戶自動輸入等方式獲取目標語句。因此當第一步獲取的目標語句存在錯字問題,會嚴重影響后續的分析過程。所以獲取目標語句后需要先對目標語句進行糾正,以保證之后的分析都建立在正確的語句上進行。
目前在這些識別方法中都有糾正模塊。例如在ASR中,將語音轉換為數字信號,并結合發音詞典、語言模型,將輸入的型號匹配出對應的詞串和句子,在通過對語音中上下文進行語音分析,最后通過卷積神經網絡模型對詞進行糾正。但是這些糾正模塊中采用的技術聚焦在常用詞錯誤,易混易錯。在實際操作過程中,OCR,ASR識別錯誤或用戶用拼音打錯,手寫選錯的有時候是形近或音近的生僻字,例如“銀川”誤選為“鋃川”。因此,針對包含專業字詞和生僻字詞的自然語言,目前缺乏能夠有效糾正的手段。
發明內容
本發明的主要目的在于解決自然語言處理中的缺乏針對專業詞、生僻字的糾正方法的技術的問題。
本發明第一方面提供了一種錯詞糾正方法,包括:
獲取待處理的自然語言文本;
基于網頁爬取生成的易錯詞庫,對所述自然語言文本進行預糾正,得到第一文本;
對所述第一文本進行分詞和序列標注,得到文本子詞和對應的標注類型,其中所述標注類型包括正確類、錯誤起點類和錯誤內容類;
基于預置候選字詞表,生成所述錯誤起點類和所述錯誤內容類的文本子詞對應的備選字詞,并將所述備選字詞依次寫入所述第一文本中的對應位置,分別得到對應的第二文本,其中,所述候選字詞表包括常用字候選字、常用詞候選詞和專業詞候選詞;
計算各所述第二文本的困惑度值并相互進行大小比較,將最小困惑度值對應的第二文本作為正確文本輸出。
可選的,在本發明第一方面的第一種實現方式中,所述易錯詞庫存儲于區塊鏈中,所述基于網頁爬取生成的易錯詞庫,對所述自然語言文本進行預糾正,得到第一文本包括:
對所述自然語言文本進行分詞,得到多個詞語;
基于網頁爬取生成的易錯詞庫,篩選所述各詞語中的易錯詞,其中所述易錯詞庫包括易錯詞和對應的正確詞;
將所述正確詞寫入所述自然語言文本中易錯詞的位置,以替換所述易錯詞,得到所述第一文本。
可選的,在本發明第一方面的第二種實現方式中,所述對所述第一文本進行分詞和序列標注,得到文本子詞和對應的標注類型,其中所述標注類型包括正確類、錯誤起點類和錯誤內容類包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010581289.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種溫濕度可調節微型電場傳感器標定系統
- 下一篇:一種輪胎模具





