[發明專利]一種文本糾錯方法、裝置、電子設備及可讀存儲介質有效
| 申請號: | 202011110293.0 | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112183072B | 公開(公告)日: | 2023-07-21 |
| 發明(設計)人: | 龔厚瑜 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/30 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 高鶯然;馬敬 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 糾錯 方法 裝置 電子設備 可讀 存儲 介質 | ||
本發明實施例提供了一種文本糾錯方法、裝置、電子設備及可讀存儲介質,該方法包括:獲得待糾錯文本,對待糾錯文本依次進行形近字糾錯和常用字糾錯,得到第一校正文本,并對待糾錯文本進行常用詞糾錯,得到第二校正文本。然后獲得第一校正文本和第二校正文本的困惑度,將困惑度最低的校正文本確定為待糾錯文本的校正文本。這樣,可以對錯誤內容較多且錯誤類型復雜的文本進行準確糾錯。
技術領域
本發明涉及計算機技術領域,特別是涉及一種文本糾錯方法、裝置、電子設備及可讀存儲介質。
背景技術
目前,為了便于對視頻資源進行分析,常常需要對視頻資源中的臺詞或者新聞標題信息進行OCR(Optical?Character?Recognition,光學字符識別)識別,進而可以識別得到視頻資源中所包含的文本。其中,OCR是將圖片上的文字直接轉換為可編輯文本的技術。
發明人在實現本發明的過程中發現,通過OCR識別得到的文本中常常存在許多識別錯誤,并且錯誤類型復雜。例如,存在形近字識別錯誤,還存在無規律可循的識別錯誤和常用詞語錯誤等。但是,目前只能通過自然語言處理算法結合神經網絡算法來對待糾錯文本進行上下文語義識別,從而根據語義識別結果對文本進行糾錯,但是該種文本糾錯方式無法對錯誤內容較多且錯誤類型復雜的文本進行準確糾錯。
發明內容
本發明實施例的目的在于提供一種文本糾錯方法、裝置、電子設備及可讀存儲介質,以可以對錯誤內容較多且錯誤類型復雜的文本進行準確糾錯。具體技術方案如下:
第一方面,本發明實施例提供一種文本糾錯方法,包括:
獲得待糾錯文本;
對所述待糾錯文本依次進行形近字糾錯和常用字糾錯,得到第一校正文本;
對所述待糾錯文本進行常用詞糾錯,得到第二校正文本;
獲得所述第一校正文本和所述第二校正文本的困惑度,將困惑度最低的校正文本確定為待糾錯文本的校正文本。
在一種可能的實現方式中,所述對所述待糾錯文本依次進行形近字糾錯和常用字糾錯,得到第一校正文本,包括:
通過預設形近字列表,按照從所述待糾錯文本中的第一個字到最后一個字的順序,對所述待糾錯文本進行正向糾錯;
通過所述預設形近字列表,按照從所述待糾錯文本中的最后一個字到第一個字的順序,對所述待糾錯文本進行反向糾錯;
根據正向糾錯得到的糾錯結果和反向糾錯得到的糾錯結果確定形近字糾錯文本;
通過預設常用字列表,按照從所述形近字糾錯文本中的第一個字到最后一個字的順序,對所述形近字糾錯文本進行正向糾錯;
通過所述預設常用字列表,按照從所述形近字糾錯文本中的最后一個字到第一個字的順序,對所述形近字糾錯文本進行反向糾錯;
根據對所述形近字糾錯文本進行正向糾錯得到的糾錯結果和反向糾錯得到的糾錯結果,確定所述第一校正文本。
在一種可能的實現方式中,所述對所述待糾錯文本進行常用詞糾錯,得到第二校正文本,包括:
依次通過第一常用詞列表、第二常用詞列表和第三常用詞列表對所述待糾錯文本進行糾錯,得到第二校正文本;其中,所述第一常用詞列表中每個常用詞的包括的字的數量均為第一數量,所述第二常用詞列表中的每個常用詞包括的字的數量均為第二數量,所述第三常用詞列表中的每個常用詞包括的字的數量均為第三數量,所述第一數量大于所述第二數量,所述第二數量大于所述第三數量;和/或,
通過預設實體類別常用詞列表對所述待糾錯文本進行糾錯,得到第二校正文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011110293.0/2.html,轉載請聲明來源鉆瓜專利網。





