[發(fā)明專(zhuān)利]一種基于貝葉斯概率框架的場(chǎng)景文本識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410238427.5 | 申請(qǐng)日: | 2014-05-30 |
| 公開(kāi)(公告)號(hào): | CN103984943B | 公開(kāi)(公告)日: | 2018-06-19 |
| 發(fā)明(設(shè)計(jì))人: | 王菡子;王大寒 | 申請(qǐng)(專(zhuān)利權(quán))人: | 廈門(mén)大學(xué) |
| 主分類(lèi)號(hào): | G06K9/20 | 分類(lèi)號(hào): | G06K9/20;G06K9/46 |
| 代理公司: | 廈門(mén)南強(qiáng)之路專(zhuān)利事務(wù)所(普通合伙) 35200 | 代理人: | 馬應(yīng)森 |
| 地址: | 361005 *** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)格 場(chǎng)景文本 檢測(cè) 路徑評(píng)價(jià)函數(shù) 概率框架 識(shí)別候選 貝葉斯 動(dòng)態(tài)規(guī)劃算法 計(jì)算機(jī)視覺(jué) 參數(shù)學(xué)習(xí) 場(chǎng)景圖像 概率建模 候選字符 集成檢測(cè) 模式識(shí)別 輸出文本 文本檢測(cè) 字符檢測(cè) 字符類(lèi)別 構(gòu)建 搜索 文本 保存 | ||
1.一種基于貝葉斯概率框架的場(chǎng)景文本識(shí)別方法,其特征在于包括以下步驟:
步驟S1:輸入場(chǎng)景圖像文本;
步驟S2:字符檢測(cè)和識(shí)別;
所述字符檢測(cè)和識(shí)別的具體方法為:
采用多尺度滑動(dòng)窗口的方法,用字符分類(lèi)器對(duì)圖像中的窗口區(qū)域進(jìn)行檢測(cè)和識(shí)別,對(duì)每一個(gè)字符類(lèi)別,將分類(lèi)器輸出較大的區(qū)域判定為候選字符區(qū)域,輸出較小的區(qū)域認(rèn)為是背景區(qū)域,找出圖像中包含的候選字符區(qū)域;再采用非極大值抑制方法,對(duì)重疊率較大的區(qū)域只保留分類(lèi)器輸出值最大的區(qū)域和相應(yīng)的字符類(lèi)別,除去大量重復(fù)冗余的候選字符區(qū)域,得到字符檢測(cè)結(jié)果;
步驟S3:構(gòu)建檢測(cè)-識(shí)別候選網(wǎng)格,具體方法如下:
將候選字符區(qū)域和對(duì)應(yīng)的字符類(lèi)別和識(shí)別分?jǐn)?shù)保存在一個(gè)檢測(cè)與識(shí)別候選網(wǎng)格里,這樣候選網(wǎng)格里每一條檢測(cè)-識(shí)別路徑對(duì)應(yīng)一個(gè)文本檢測(cè)和識(shí)別結(jié)果;設(shè)計(jì)路徑評(píng)價(jià)函數(shù),對(duì)候選網(wǎng)格里的每一條候選檢測(cè)-識(shí)別路徑進(jìn)行評(píng)價(jià);
在構(gòu)建檢測(cè)-識(shí)別候選網(wǎng)格時(shí),保存候選字符的字符類(lèi)別和識(shí)別分?jǐn)?shù),并保存四種幾何上下文模型,包括一元類(lèi)別有關(guān)和類(lèi)別無(wú)關(guān)幾何模型、二元類(lèi)別有關(guān)和類(lèi)別無(wú)關(guān)幾何模型;
在檢測(cè)-識(shí)別候選網(wǎng)格中,每一條檢測(cè)-識(shí)別路徑表示一種識(shí)別結(jié)果,將場(chǎng)景文本識(shí)別問(wèn)題轉(zhuǎn)化為路徑搜索問(wèn)題,用一個(gè)路徑評(píng)價(jià)函數(shù)來(lái)評(píng)價(jià)每一條候選檢測(cè)-識(shí)別路徑,基于該路徑評(píng)價(jià)函數(shù),用動(dòng)態(tài)規(guī)劃算法搜索最優(yōu)路徑得到識(shí)別結(jié)果;
所述路徑評(píng)價(jià)函數(shù)為:
其中,為字符分類(lèi)器的輸出,到分別表示語(yǔ)言模型的輸出、一元和二元類(lèi)別相關(guān)幾何模型的輸出、以及一元和二元類(lèi)別無(wú)關(guān)幾何模型的輸出,P是一個(gè)常數(shù),λ1到λ6是六個(gè)參數(shù);
所述的路徑評(píng)價(jià)函數(shù)是通過(guò)對(duì)集成檢測(cè)與切分的識(shí)別方法從貝葉斯決策角度進(jìn)行建模得到的,所述建模過(guò)程如下:
輸入場(chǎng)景文本圖像記為X,文本行類(lèi)別,即一個(gè)詞或者字符串,記為C=c1c2…cn,其中,c1到cn表示字符類(lèi)別,n表示文本行包含字符的個(gè)數(shù),即字符長(zhǎng)度,則將場(chǎng)景文本圖像X識(shí)別為C的后驗(yàn)概率為:
其中,第d條字符檢測(cè)路徑,P(d|X)表示給定輸入圖像得到第d條字符檢測(cè)路徑的后驗(yàn)概率,P(C|Xd)表示給定第d條字符檢測(cè)路徑識(shí)別為文本行類(lèi)別C的后驗(yàn)概率;這里,將一條檢測(cè)路徑上的字符構(gòu)成一個(gè)詞或者字符串Xd,其表示為一個(gè)字符序列,即Xd=x1x2…xn,其中xi對(duì)應(yīng)為字符類(lèi)別ci的候選檢測(cè)字符;
從貝葉斯決策的角度,場(chǎng)景文本識(shí)別即是找到使后驗(yàn)概率P(C|X)最大的文本行類(lèi)別C,為了避免式(2)中對(duì)大量的檢測(cè)路徑求和,文本行類(lèi)別C通過(guò)下式近似得到:
其中,P(d|X)表示文本檢測(cè),P(C|Xd)表示文本識(shí)別;
將文本檢測(cè)的后驗(yàn)概率P(d|X)用幾何上下文表示,包括一元幾何上下文和二元幾何上下文:
其中,表示一個(gè)候選字符是一個(gè)有效字符區(qū)域的概率,為一元類(lèi)別無(wú)關(guān)幾何上下文;表示相鄰兩個(gè)候選檢測(cè)字符之間的幾何特征屬于字符間特征的概率,為二元類(lèi)別無(wú)關(guān)幾何上下文;和分別表示提取的一元和二元類(lèi)別無(wú)關(guān)幾何特征;
所述文本檢測(cè)的后驗(yàn)概率P(C|Xd)進(jìn)一步分解為:
其中,P(C)=P(c1c2…cn)表示文本行類(lèi)別的先驗(yàn)概率,由語(yǔ)言模型給出;P(Xd|C)為類(lèi)條件似然函數(shù),分解為:
其中,和分別表示一元和二元類(lèi)別相關(guān)幾何上下文的輸出;P(Xd)為幾何上下文的邊緣似然概率,類(lèi)似的分解為:
將式(6)和式(7)代入式(4)得到:
其中,p1(ci),p2(ci)和p3(ci-1ci)認(rèn)為是常數(shù);
結(jié)合式(8),得到式(5)變?yōu)椋?/p>
其中,P=p1(ci)p2(ci)p3(ci-1ci)是一個(gè)常數(shù);
結(jié)合式(9)和式(4),場(chǎng)景文本的識(shí)別公式(3)變?yōu)椋?/p>
這里,并假定p(c1|c0)=p(c1)對(duì)所有類(lèi)別是相等的;
最后,對(duì)式(10)取對(duì)數(shù)函數(shù)后,將乘積形式變?yōu)楹偷男问剑@樣得到了最終的路徑評(píng)價(jià)函數(shù)為:
其中,分別表示字符分類(lèi)器輸出、語(yǔ)言模型輸出、一元類(lèi)別相關(guān)幾何上下文、二元類(lèi)別相關(guān)幾何上下文、一元類(lèi)別無(wú)關(guān)幾何上下文、二元類(lèi)別無(wú)關(guān)幾何上下文的輸出,λ1至λ6為路徑評(píng)價(jià)函數(shù)的參數(shù),用來(lái)平衡各輸出的貢獻(xiàn);
所述字符分類(lèi)器采用典型的特征提取算法和分類(lèi)器算法進(jìn)行建模,利用數(shù)據(jù)庫(kù)進(jìn)行訓(xùn)練得到,所述典型的特征提取算法為HOG,所述分類(lèi)器算法為SVM;語(yǔ)言模型從大型語(yǔ)料庫(kù)學(xué)習(xí)得到;為四種幾何模型的建模方法分別設(shè)計(jì)和提取相應(yīng)的幾何特征,用常用分類(lèi)器進(jìn)行建模,所述常用分類(lèi)器為SVM;
所述的路徑評(píng)價(jià)函數(shù)中的參數(shù)λ1至λ6采用最小分類(lèi)錯(cuò)誤率訓(xùn)練算法學(xué)習(xí)得到,具體的,參數(shù)在一個(gè)訓(xùn)練集上學(xué)習(xí)得到,訓(xùn)練集記為其中,R表示訓(xùn)練樣本的個(gè)數(shù),表示真實(shí)文本類(lèi)別,表示真實(shí)的檢測(cè)路徑,則和表示了真實(shí)的檢測(cè)-識(shí)別路徑,記為則錯(cuò)誤分類(lèi)度量表示為:
其中,為真實(shí)路徑的判別函數(shù)值,為競(jìng)爭(zhēng)路徑的判別函數(shù)值,Λ為參數(shù),這里,判別函數(shù)即為路徑評(píng)價(jià)函數(shù)即式(1),競(jìng)爭(zhēng)路徑定義為:
競(jìng)爭(zhēng)路徑通過(guò)集束搜索算法得到;將上述錯(cuò)誤分類(lèi)度量式(12)通過(guò)Sigmoid函數(shù)轉(zhuǎn)化為0-1損失,即這樣,參數(shù)通過(guò)隨機(jī)梯度下降算法進(jìn)行學(xué)習(xí):
Λ(t+1)=Λ(t)-ε(t)U▽l(X,Λ) (14)
步驟S4:根據(jù)路徑評(píng)價(jià)函數(shù),從候選網(wǎng)格中用動(dòng)態(tài)規(guī)劃算法搜索得到最優(yōu)檢測(cè)-識(shí)別路徑,即得到識(shí)別結(jié)果;
所述步驟S4中,根據(jù)路徑評(píng)價(jià)函數(shù),使用動(dòng)態(tài)規(guī)劃算法搜索檢測(cè)-識(shí)別候選路徑得到最優(yōu)路徑,即為最終的識(shí)別結(jié)果;
步驟S5:輸出文本識(shí)別結(jié)果。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于廈門(mén)大學(xué),未經(jīng)廈門(mén)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410238427.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 通過(guò)監(jiān)視和分發(fā)網(wǎng)格活動(dòng)促進(jìn)整個(gè)網(wǎng)格環(huán)境管理
- 網(wǎng)格
- 點(diǎn)云網(wǎng)格簡(jiǎn)化系統(tǒng)及方法
- 網(wǎng)格
- CT穿刺引導(dǎo)定位膜
- CT穿刺引導(dǎo)定位膜
- 虛擬現(xiàn)實(shí)三維水體渲染中水體網(wǎng)格的處理方法
- 一種環(huán)境監(jiān)管網(wǎng)格化系統(tǒng)、方法及電子設(shè)備
- 用于海洋結(jié)構(gòu)物與水面網(wǎng)格重疊部分的重建方法
- 一種道具吸附的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種雙目視頻轉(zhuǎn)換多目視頻的方法
- 場(chǎng)景知識(shí)圖譜的生成方法、人機(jī)對(duì)話方法以及相關(guān)設(shè)備
- 語(yǔ)音識(shí)別方法及相關(guān)產(chǎn)品
- 劇本處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種文本提取方法、裝置、設(shè)備及介質(zhì)
- 一種基于多尺度特征的場(chǎng)景文本識(shí)別方法
- 基于生成對(duì)抗網(wǎng)絡(luò)的場(chǎng)景圖像生成方法和裝置
- 基于場(chǎng)景的文本分類(lèi)模型、文本分類(lèi)方法及裝置
- 語(yǔ)音的處理方法和裝置
- 基于生成對(duì)抗式風(fēng)格遷移的場(chǎng)景文本識(shí)別方法
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)
- 網(wǎng)絡(luò)擁塞控制方法和控制器
- 一種基于SEM-FSVM的煤礦安全管理風(fēng)險(xiǎn)評(píng)價(jià)方法
- 一種基于FPGA設(shè)計(jì)的車(chē)載系統(tǒng)和A star路徑搜索方法
- 一種室內(nèi)移動(dòng)機(jī)器人的混合路徑規(guī)劃方法
- 多個(gè)載具的移動(dòng)控制方法、裝置、系統(tǒng)、程序和存儲(chǔ)介質(zhì)
- 一種基于非均勻柵格模型的快速無(wú)人車(chē)局部路徑規(guī)劃方法
- 一種機(jī)械臂運(yùn)動(dòng)規(guī)劃方法、裝置、可讀存儲(chǔ)介質(zhì)及機(jī)械臂
- 手術(shù)質(zhì)量檢測(cè)方法及裝置
- 引導(dǎo)車(chē)輛行駛的方法及相關(guān)系統(tǒng)、存儲(chǔ)介質(zhì)
- 自動(dòng)駕駛汽車(chē)的集成式?jīng)Q控方法、裝置及存儲(chǔ)介質(zhì)





