[發(fā)明專利]文本信息處理方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201911000662.8 | 申請(qǐng)日: | 2019-10-21 |
| 公開(kāi)(公告)號(hào): | CN110765996B | 公開(kāi)(公告)日: | 2022-07-29 |
| 發(fā)明(設(shè)計(jì))人: | 馮博豪;陳興波;張小帥;楊艦 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號(hào): | G06V10/22 | 分類號(hào): | G06V10/22;G06F40/232 |
| 代理公司: | 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 信息處理 方法 裝置 | ||
本申請(qǐng)的實(shí)施例公開(kāi)了文本信息處理方法及裝置,涉及云計(jì)算領(lǐng)域。該方法的一具體實(shí)施方式包括:從包括待處理文本的圖像中識(shí)別出待處理文本;將待處理文本輸入預(yù)先訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,識(shí)別待處理文本中的錯(cuò)別字;將待處理文本中的錯(cuò)別字輸入預(yù)先訓(xùn)練的文本糾錯(cuò)模型,得到錯(cuò)別字對(duì)應(yīng)的相似字;利用文本糾錯(cuò)模型,基于待處理文本的連貫性,確定相似字中與錯(cuò)別字對(duì)應(yīng)的正確文字,采用正確文字替換錯(cuò)別字,得到待處理文本的糾錯(cuò)文本。本申請(qǐng)通過(guò)預(yù)先訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型識(shí)別錯(cuò)別字,通過(guò)預(yù)先訓(xùn)練的文本糾錯(cuò)模型得到錯(cuò)別字的正確文字,從而得到糾錯(cuò)文本,提高了識(shí)別結(jié)果的準(zhǔn)確度。
技術(shù)領(lǐng)域
本申請(qǐng)實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種文本信息處理方法及裝置。
背景技術(shù)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,OCR(Optical Character Recognition,光學(xué)字符識(shí)別)文字識(shí)別技術(shù)在各個(gè)領(lǐng)域被廣泛應(yīng)用。OCR文字識(shí)別技術(shù)能夠?qū)D片信息轉(zhuǎn)換成文本信息,然后機(jī)器通過(guò)自然語(yǔ)言處理技術(shù)對(duì)文本進(jìn)行語(yǔ)義分析和意圖識(shí)別等處理。
目前,OCR文字識(shí)別技術(shù)對(duì)于印刷體的文本識(shí)別已經(jīng)非常成熟,準(zhǔn)確度能夠達(dá)到90%以上,但是,對(duì)于手寫(xiě)體文本的識(shí)別,現(xiàn)有的OCR文字識(shí)別技術(shù)準(zhǔn)確度較低。
現(xiàn)有技術(shù)中,對(duì)于OCR技術(shù)識(shí)別手寫(xiě)文本得到的識(shí)別結(jié)果的修正,通常通過(guò)技術(shù)人員人工來(lái)完成。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例提出了一種文本信息處理方法及裝置。
第一方面,本申請(qǐng)實(shí)施例提供了一種文本信息處理方法,其中,上述方法包括:從包括待處理文本的圖像中識(shí)別出待處理文本;將待處理文本輸入預(yù)先訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,識(shí)別待處理文本中的錯(cuò)別字;將待處理文本中的錯(cuò)別字輸入預(yù)先訓(xùn)練的文本糾錯(cuò)模型,得到錯(cuò)別字對(duì)應(yīng)的相似字;利用文本糾錯(cuò)模型,基于待處理文本的連貫性,確定相似字中與錯(cuò)別字對(duì)應(yīng)的正確文字,采用正確文字替換錯(cuò)別字,得到待處理文本的糾錯(cuò)文本。
在一些實(shí)施例中,在上述利用文本糾錯(cuò)模型,基于待處理文本的連貫性,確定相似字中與錯(cuò)別字對(duì)應(yīng)的正確文字,采用正確文字替換錯(cuò)別字,得到待處理文本的糾錯(cuò)文本之后,上述方法還包括:將糾錯(cuò)文本輸入預(yù)先訓(xùn)練的填充模型,根據(jù)上下文獲取糾錯(cuò)文本缺失的內(nèi)容,得到糾錯(cuò)文本的完整文本。
在一些實(shí)施例中,在上述將糾錯(cuò)文本輸入預(yù)先訓(xùn)練的填充模型,根據(jù)上下文獲取糾錯(cuò)文本缺失的內(nèi)容,得到糾錯(cuò)文本的完整文本之后,上述方法還包括:根據(jù)識(shí)別待處理文本時(shí)存儲(chǔ)的待處理文本在圖像中的位置信息,確定完整文本的顯示位置。
在一些實(shí)施例中,上述預(yù)先訓(xùn)練的文本糾錯(cuò)模型包括:詞庫(kù)過(guò)濾模塊、流暢度判定模塊和連貫性判定模塊;
上述利用文本糾錯(cuò)模型,基于待處理文本的連貫性,確定相似字中與錯(cuò)別字對(duì)應(yīng)的正確文字,采用正確文字替換錯(cuò)別字,得到待處理文本的糾錯(cuò)文本,包括:
對(duì)于任意一個(gè)相似字,執(zhí)行如下的判斷步驟:
將該相似字輸入詞庫(kù)過(guò)濾模塊,替換待處理文本中對(duì)應(yīng)的錯(cuò)別字,得到替換文本,并判斷替換文本中含有相似字的詞語(yǔ)是否與預(yù)設(shè)詞庫(kù)匹配;響應(yīng)于確定含有相似字的詞語(yǔ)與預(yù)設(shè)詞庫(kù)匹配,通過(guò)流暢度判定模塊得到待處理文本中含有詞語(yǔ)的短語(yǔ)的流暢度,并根據(jù)流暢度篩選出候選詞語(yǔ),得到候選詞文本;將候選詞文本輸入連貫性判定模塊,得到包括候選詞語(yǔ)的句子的連貫性數(shù)值;
上述利用文本糾錯(cuò)模型,基于待處理文本的連貫性確定錯(cuò)別字的正確文字,采用正確文字替換錯(cuò)別字,得到待處理文本的糾錯(cuò)文本,還包括:根據(jù)各替換文本的連貫性數(shù)值,確定錯(cuò)別字的正確文字,采用正確文字替換錯(cuò)別字,得到糾錯(cuò)文本。
在一些實(shí)施例中,上述將待處理文本輸入預(yù)先訓(xùn)練的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,識(shí)別待處理文本中的錯(cuò)別字,包括:通過(guò)預(yù)先訓(xùn)練的循環(huán)神經(jīng)語(yǔ)言模型計(jì)算待處理文本中的單字的似然概率值,以及含有單字的句子的似然概率值;響應(yīng)于確定單字的似然概率值小于含有單字的句子的似然概率值,判定單字為錯(cuò)別字。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911000662.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





