[發(fā)明專利]文本信息處理方法及裝置有效
| 申請?zhí)枺?/td> | 201911000662.8 | 申請日: | 2019-10-21 |
| 公開(公告)號: | CN110765996B | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設計)人: | 馮博豪;陳興波;張小帥;楊艦 | 申請(專利權)人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06V10/22 | 分類號: | G06V10/22;G06F40/232 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息處理 方法 裝置 | ||
1.一種文本信息處理方法,其中,所述方法包括:
從包括待處理文本的圖像中識別出所述待處理文本;
將所述待處理文本輸入預先訓練的循環(huán)神經(jīng)網(wǎng)絡語言模型,識別所述待處理文本中的錯別字;
將所述待處理文本中的錯別字輸入預先訓練的文本糾錯模型,得到所述錯別字對應的相似字;
利用所述文本糾錯模型,基于所述待處理文本的連貫性,確定所述相似字中與所述錯別字對應的正確文字,采用所述正確文字替換所述錯別字,得到所述待處理文本的糾錯文本;
其中,所述文本糾錯模型包括:詞庫過濾模塊、流暢度判定模塊和連貫性判定模塊;
所述利用所述文本糾錯模型,基于所述待處理文本的連貫性,確定所述相似字中與所述錯別字對應的正確文字,采用所述正確文字替換所述錯別字,得到所述待處理文本的糾錯文本,包括:
對于任意一個相似字,執(zhí)行如下的判斷步驟:將該相似字輸入所述詞庫過濾模塊,替換所述待處理文本中對應的錯別字,得到替換文本,并判斷所述替換文本中含有所述相似字的詞語是否與預設詞庫匹配;響應于確定含有所述相似字的詞語與預設詞庫匹配,通過所述流暢度判定模塊得到待處理文本中含有所述詞語的短語的流暢度,并根據(jù)所述流暢度篩選出候選詞語,得到候選詞文本,其中,所述流暢度由詞語共現(xiàn)概率確定;將所述候選詞文本輸入所述連貫性判定模塊,得到包括所述候選詞語的句子的連貫性數(shù)值;
根據(jù)各替換文本的連貫性數(shù)值,確定所述錯別字的正確文字,采用所述正確文字替換所述錯別字,得到所述糾錯文本。
2.根據(jù)權利要求1所述的方法,其中,在所述利用所述文本糾錯模型,基于所述待處理文本的連貫性,確定所述相似字中與所述錯別字對應的正確文字,采用所述正確文字替換所述錯別字,得到所述待處理文本的糾錯文本之后,所述方法還包括:
將所述糾錯文本輸入預先訓練的填充模型,根據(jù)上下文獲取所述糾錯文本缺失的內容,得到所述糾錯文本的完整文本。
3.根據(jù)權利要求2所述的方法,其中,在所述將所述糾錯文本輸入預先訓練的填充模型,根據(jù)上下文獲取所述糾錯文本缺失的內容,得到所述糾錯文本的完整文本之后,所述方法還包括:
根據(jù)識別所述待處理文本時存儲的所述待處理文本在所述圖像中的位置信息,確定所述完整文本的顯示位置。
4.根據(jù)權利要求1所述的方法,其中,所述將所述待處理文本輸入預先訓練的循環(huán)神經(jīng)網(wǎng)絡語言模型,識別所述待處理文本中的錯別字,包括:
通過所述預先訓練的循環(huán)神經(jīng)語言模型計算所述待處理文本中的單字的似然概率值,以及含有所述單字的句子的似然概率值;
響應于確定所述單字的似然概率值小于含有所述單字的句子的似然概率值,判定所述單字為錯別字。
5.根據(jù)權利要求1所述的方法,其中,所述從包括待處理文本的圖像中識別出所述待處理文本,包括:
根據(jù)預先選定的所述待處理文本在所述圖像中的位置信息和實體類型識別所述圖像中的待處理文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911000662.8/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種答題卡生成方法、識別方法、裝置及存儲介質
- 下一篇:手持式讀取器





