[發明專利]基于深度學習模型的文本糾錯方法及系統有效
| 申請號: | 202010110922.3 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN111339758B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 蔣倩雯;沈藝;許加書;張森;張兵兵 | 申請(專利權)人: | 蘇寧云計算有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/242;G06F16/31 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 盛安平 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 模型 文本 糾錯 方法 系統 | ||
本發明公開一種基于深度學習模型的文本糾錯方法及系統,其中,該方法包括步驟:利用錯誤定位模型判斷用戶輸入的語句是否存在錯誤字,同時獲取所述錯誤字的位置索引;將不存在錯誤字的語句直接輸出,同時輸出判斷結果;或者,將存在錯誤字的語句輸入錯誤糾正模型以得到修改后的語句,同時獲取被修改字的位置索引,判斷被修改字的位置索引與錯誤字的位置索引是否一致,如果一致,輸出修改后的語句,如果不一致,輸出修改前的語句,該方法既保證了錯誤定位和錯誤糾正的正確率,又防止因錯誤糾正模型未能正確識別錯誤字而導致的錯誤修改。該系統采用上述基于深度學習模型的文本糾錯方法,提高了文本糾錯的可靠性和正確率。
技術領域
本發明人工智能自然語言處理(NLP)領域,尤其涉及基于深度學習模型的文本糾錯方法及系統。
背景技術
文本糾錯是一種自動化文本校正技術,包括諧音字詞的校正(例如“配副眼睛”修改為“配副眼鏡”)和形近字詞的修改(例如“高梁”修改為“高粱”)等,電商文本糾錯是針對電商類文字信息,比如商品推薦文案,客服問答等的糾正技術。
文本糾錯目前會采用單模型和多模型兩套不同的方式,由于多模型存在計算消耗大、語料需求大等問題,因此實際應用中單模型應用場景較為廣泛。
如圖1所示,現有技術中單模型文本糾錯常采用的算法邏輯為:
1、錯誤定位:這一步常采用閾值判斷來解決;
2、困惑集替換:根據所有的音近字形近字表,進行錯字替換;
3、糾錯:對替換后的句子進行打分,采用得分高者替換字。
但是上述的單模型方法在實際應用中存在一些不足:
1、錯誤定位:常使用ngram進行錯誤定位(常用bigram和trigram),但是該方法產生的配置文件(字符串概率字典表)將是巨大的,非常影響模型的上線和使用。除此之外,閾值的確定需要在得到字符串概率字典表后,經過多次試驗取舍才能得到一個合適的閾值區間,并且針對不同領域的語料需要確定不同的閾值,以上這些體現出閾值定位錯誤的不可靠性和差魯棒性。
2、困惑集替換:采用困惑集里的字符串進行替換,但是該步驟常用的問題是替換字表未必全,可能不包含正確字,或者沒有該字的替換字表,造成錯誤不能糾正。
3、糾錯:評分步驟,這一步中,可能替換前是一個常用詞,替換后也是一個常用詞,這樣兩者的得分就是相同的,或者如果包含錯別字的詞組頻率是更高的,那么得分也就是更高的,這樣就沒有考慮到上下文語境,會進一步造成錯誤不能糾正或者正確字誤糾正的情況。
發明內容
本發明的目的在于提供基于深度學習模型的文本糾錯方法及系統,以提高文本糾錯的可靠性和正確率。
為了實現上述目的,本發明提供如下技術方案:
一種基于深度學習模型的文本糾錯方法,包括步驟:
利用錯誤定位模型判斷用戶輸入的語句是否存在錯誤字,同時獲取所述錯誤字的位置索引;
將不存在錯誤字的語句直接輸出,同時輸出判斷結果;或者,
將存在錯誤字的語句輸入錯誤糾正模型以得到修改后的語句,同時獲取被修改字的位置索引,判斷被修改字的位置索引與錯誤字的位置索引是否一致,如果一致,輸出修改后的語句,如果不一致,輸出修改前的語句。
優選地,所述錯誤定位模型采用bilstm+crf模型;
所述錯誤糾正模型采用seq2seq模型。
具體地,判斷用戶輸入的語句是否存在錯誤字同時獲取所述錯誤字的位置索引的方法包括:
接收用戶輸入的語句,并將所述語句轉換為字索引;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇寧云計算有限公司,未經蘇寧云計算有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010110922.3/2.html,轉載請聲明來源鉆瓜專利網。





