[發明專利]一種缺失字/詞的補全方法及電子設備有效
| 申請號: | 202011582902.2 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112580310B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 王寶鑫;伍大勇;車萬翔;王士進;胡國平;劉挺 | 申請(專利權)人: | 河北省訊飛人工智能研究院;科大訊飛(北京)有限公司;科大訊飛股份有限公司 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/289;G06F40/117;G06N3/045;G06N3/08 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 何倚雯 |
| 地址: | 065000 河北省廊坊市經濟技術*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 缺失 方法 電子設備 | ||
本申請提供一種缺失字/詞的補全方法,該方法包括用語言模型識別缺失句中缺失位置,其中語言模型為以偽數據作為輸入而進行預訓練所得到的模型,缺失句表征存在成分缺失錯誤的語句;用語言模型生成缺失位置處所缺失的多個候選字/詞;對多個候選字/詞進行排序,以確定缺失位置處所缺失的缺失字/詞。本申請還提供相應的電子設備。通過上述方法,本申請能實現更加快速準確地對文本中字、詞缺失問題進行糾正補全。
技術領域
本申請的所公開實施例涉及信息處理技術領域,且更具體而言,涉及一種缺失字/詞的補全方法及電子設備。
背景技術
語言初學者在寫文章時往往容易產生缺詞漏詞等現象,而我們日常生活寫作中,也經常會因為疏忽大意等原因導致字、詞缺失問題。字、詞缺失是語法錯誤中常見的一種類型,這類錯誤因為需要根于原句語義進行補充字、詞,難度往往比別字、亂序等類型錯誤校對難度更大。
發明內容
根據本申請的實施例,本申請提出一種缺失字/詞的補全方法及電子設備來解決上述問題。
根據本申請的第一方面,公開一種缺失字/詞的補全方法,包括用語言模型識別缺失句中缺失位置,其中所述語言模型為以偽數據作為輸入而進行預訓練所得到的模型,所述缺失句表征存在成分缺失錯誤的語句;用所述語言模型生成所述缺失位置處所缺失的多個候選字/詞;以及對所述多個候選字/詞進行排序,以確定所述缺失位置處所缺失的缺失字/詞。
根據本申請的第二方面,公開一種電子設備,包括處理器和存儲器,所述存儲器存儲有指令,所述指令在執行時使得所述處理器執行如第一方面所述的缺失字/詞的補全方法。
本申請的有益效果是:通過用語言模型識別缺失句中缺失位置,生成缺失位置處所缺失的多個候選字/詞,并對多個候選字/詞進行排序,從而確定缺失位置處所缺失的缺失字/詞,實現快速準確地對文本中字、詞缺失問題進行糾正補全,其中語言模型是以偽數據作為輸入而進行預訓練得到的,緩解訓練數據不足。
附圖說明
下面將結合附圖及實施方式對本申請作進一步說明,附圖中:
圖1是本申請實施例的補全方法的流程圖;
圖2是本申請實施例的語言模型采用BERT模型的基礎模型框圖;
圖3是本申請實施例的補全方法的對候選字排序的部分流程圖;
圖4是本申請實施例的電子設備的結構示意圖;
圖5是本申請實施例的存儲介質的示意圖。
具體實施方式
目前,缺失字詞補全方法通常采用Seq2Seq生成模型,輸入一個包含缺失錯誤的句子,通過訓練數據自動生成一個補全后的正確句子。然而,使用生成模型的方法解碼速度比較慢,需要從開頭開始生成一完整的句子,而預測速度與句子長度相關,長句子預測比較慢。另外,使用生成模型的方法,是直接生成一個正確句子,無法方便地給出錯誤位置和類型,從而對錯誤的定位不直觀,需要人為對比分析才能找到錯誤的位置和修改方式。例如,對于一個錯誤的句子,“人戰勝了饑餓,才努力為了下一代更好的、更健康的東西。”,使用生成模型的方法,將直接給出正確的表述:“人戰勝了饑餓,才能努力為了下一代做更好的、更健康的東西。”,而不會給出明確的錯誤位置和修改意見。此外,生成模型對訓練數據要求比較高,而目前已標注的訓練語料不充足,且獲取真實數據成本較高。
為此,本申請提供了一種缺失字/詞的補全方法,使用語言模型,識別缺失字詞的位置,并確定所缺失的字詞,從而實現缺失字詞的補全,即實現快速準確地對文本中字、詞缺失問題進行糾正補全,其中語言模型是以偽數據作為輸入而進行預訓練得到的,緩解訓練數據不足。
為使本領域的技術人員更好地理解本申請的技術方案,下面結合附圖和具體實施方式對本申請的技術方案做進一步詳細描述。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北省訊飛人工智能研究院;科大訊飛(北京)有限公司;科大訊飛股份有限公司,未經河北省訊飛人工智能研究院;科大訊飛(北京)有限公司;科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011582902.2/2.html,轉載請聲明來源鉆瓜專利網。





