[發(fā)明專利]一種錯別字檢測及糾正方法在審
| 申請?zhí)枺?/td> | 202210975544.4 | 申請日: | 2022-08-15 |
| 公開(公告)號: | CN115310432A | 公開(公告)日: | 2022-11-08 |
| 發(fā)明(設計)人: | 鄭海濤;馬仕镕;李映輝;江勇;夏樹濤;肖喜 | 申請(專利權)人: | 清華大學深圳國際研究生院 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/242;G06F40/30;G06N3/08 |
| 代理公司: | 深圳新創(chuàng)友知識產權代理有限公司 44223 | 代理人: | 江耀鋒 |
| 地址: | 518055 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 錯別字 檢測 糾正 方法 | ||
本發(fā)明公開了一種錯別字檢測及糾正方法,包括以下步驟:獲取對比學習模型,包括以下模塊:主模塊和輔助模塊,主模塊為預訓練語言模型,輔助模塊包括:字音編碼模塊、字形編碼模塊和字典編碼模塊;模型訓練:使用錯別字糾正任務來訓練主模塊,加入對比學習任務,分別針對字音、字形和字典知識構造所需的正例和負例,輔助模塊分別對字音、字形和字典釋義的信息編碼,指導主模塊學習字音、字形以及字詞定義和常識知識,使主模塊蘊含錯別字檢測與糾正任務所需的知識;模型推理:只保留主模塊進行推理,以保證模型的推理效率。本發(fā)明提升了錯別字檢測和糾正效果,使之可以發(fā)現(xiàn)現(xiàn)有方法難以發(fā)現(xiàn)的錯別字,進而可以有效的對錯別字進行糾正。
技術領域
本發(fā)明涉及計算機應用領域,尤其是涉及一種錯別字檢測及糾正方法。
背景技術
錯別字檢測與糾正指的是對漢字拼寫過程中出現(xiàn)的錯別字進行自動檢測與糾正的技術。近年來,主流技術使用在大規(guī)模語料上進行預訓練的語言模型進行錯別字的檢測與糾正,并取得了良好的效果,特別是基于轉換器的雙向編碼器(Bidirectional EncoderRepresentation from Transformers,BERT)在該任務上有了廣泛的應用。部分近期工作還引入漢字的發(fā)音和字形信息來輔助語言模型更好地完成錯別字檢測和糾正的任務。
與本發(fā)明最相似的現(xiàn)有一種實現(xiàn)方案將BERT預訓練語言模型為基礎,在輸入含有錯別字的句子后,使用語言模型來提取句子中各個漢字的語義特征,并通過其他深度神經網絡提取了漢字發(fā)音和字形特征,這三類特征通過基于轉換器(Transformer)構造的多模態(tài)門控融合單元進行融合,最后輸出錯別字被糾正后的句子。該方法在錯別字檢測與糾正任務上取得了超過先前主流方法的效果。
然而現(xiàn)有技術仍然存在以下缺點:預訓練語言模型檢測與糾正錯別字的能力仍然不足,仍有相當一部分錯別字難以被發(fā)現(xiàn)或修正。
發(fā)明內容
本發(fā)明的目的在于解決提高預訓練語言模型檢測與糾正錯別字的能力的問題,提供一種錯別字檢測及糾正方法。
為實現(xiàn)上述目的,本發(fā)明采用以下技術方案:
本發(fā)明公開了一種錯別字檢測及糾正方法,包括以下步驟:
S1、獲取對比學習模型,所述對比學習模型包括以下模塊:主模塊和輔助模塊,所述主模塊為預訓練語言模型,所述輔助模塊包括:字音編碼模塊、字形編碼模塊和字典編碼模塊;
S2、模型訓練:使用錯別字糾正任務來直接訓練主模塊,并加入對比學習任務,分別針對字音、字形和字典知識構造對比學習所需的正例和負例,并使用輔助模塊分別對漢字的字音、字形和字典釋義的信息進行編碼,從而指導主模塊學習漢字的字音、字形以及字詞定義和常識知識,從而使得訓練階段結束后主模塊已經蘊含了錯別字檢測與糾正任務所需的知識;
S3、模型推理:只保留主模塊進行推理,以保證模型的推理效率。
在一些實施例中,步驟S2中的對比學習任務包括:字音對比學習任務、字形對比學習任務、字典對比學習任務,所述字音對比學習任務拉近相似發(fā)音的字符在模型表示空間中的距離而推開不同發(fā)音的字符之間的距離,所述字形對比學習任務訓練模型在表示空間中能夠區(qū)分字形相似的漢字和字形不相似的漢字,所述字典對比學習任務增強模型理解字詞定義和常識知識的能力,并引導模型在檢測及糾正拼寫錯誤時與相關的字詞定義和常識知識聯(lián)系起來。
在一些實施例中,所述字典對比學習任務的訓練過程包括如下步驟:
A1:獲得有錯別字的句子X,以及該句子對應的不含錯別字的正確句子,確定錯別字所在位置對應的詞組;
A2:獲得該詞組在字典中的釋義句作為字典對比學習任務的正例在字典中隨機選擇其他詞語對應的N個釋義句作為該任務的負例
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學深圳國際研究生院,未經清華大學深圳國際研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210975544.4/2.html,轉載請聲明來源鉆瓜專利網。





