[發(fā)明專利]一種視頻流文本識別方法和裝置在審

申請?zhí)枺?/td>	201710050733.X	申請日：	2017-01-23
公開（公告）號：	CN108345886A	公開（公告）日：	2018-07-31
發(fā)明（設(shè)計）人：	許盛輝;馬龍;蘇雪峰	申請（專利權(quán)）人：	北京搜狗科技發(fā)展有限公司
主分類號：	G06K9/34	分類號：	G06K9/34;G06K9/46
代理公司：	北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319	代理人：	趙娟
地址：	100084 北京市海淀區(qū)中關(guān)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	視頻流圖像文本區(qū)域文本文本識別方法和裝置視頻流預設(shè)時間間隔整幅圖像重疊信息申請圖像檢測
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例提供了一種視頻流文本識別方法和裝置，包括：按照預設(shè)時間間隔獲取視頻流圖像；檢測所述視頻流圖像中的文本區(qū)域；比較T(n)時刻的視頻流圖像的文本區(qū)域與T(n?1)時刻的視頻流圖像的文本區(qū)域；根據(jù)比較結(jié)果，確定新增文本區(qū)域；對所述新增文本區(qū)域進行文本識別，獲得新增識別文本；將所述新增識別文本與針對T(n?1)時刻的視頻流圖像的識別文本組合為T(n)時刻的視頻流圖像的識別文本。本申請實施例中，利用了前后幀的圖像的重疊信息，將對整幅圖像的識別簡化為對新增識別區(qū)域中的文本進行識別，減少了需要識別的文本的數(shù)量，從而提高對視頻流圖像進行識別的速度。

技術(shù)領(lǐng)域

本申請涉及圖像處理技術(shù)領(lǐng)域，特別是涉及一種視頻流文本識別方法和一種視頻流文本識別裝置。

背景技術(shù)

光學字符識別OCR(Optical Character Recognition)技術(shù)是圖像處理領(lǐng)域的一種重要技術(shù)，可以實現(xiàn)對圖像中的文字進行識別。

光學字符識別技術(shù)不僅僅可以用來對單張的圖像進行識別，也可以對視頻流中出現(xiàn)的文字進行識別。目前，在對視頻流中出現(xiàn)的文字進行識別的方式為：獲取視頻流中的圖像，對獲取的整幅圖像中的字符進行識別。

這種對整幅圖像進行識別的方法，識別速度慢，對完整視頻流進行文本識別將需要耗費大量的時間，對實時性要求很高的需求難以滿足。

發(fā)明內(nèi)容

鑒于上述問題，提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種視頻流文本識別方法和一種視頻流文本識別裝置。

為了解決上述問題，本申請實施例公開了一種視頻流文本識別方法，包括：

按照預設(shè)時間間隔獲取視頻流圖像；

檢測所述視頻流圖像中的文本區(qū)域；

比較T(n)時刻的視頻流圖像的文本區(qū)域與T(n-1)時刻的視頻流圖像的文本區(qū)域；

根據(jù)比較結(jié)果，確定新增文本區(qū)域；

對所述新增文本區(qū)域進行文本識別，獲得新增識別文本；

將所述新增識別文本與針對T(n-1)時刻的視頻流圖像的識別文本組合為T(n)時刻的視頻流圖像的識別文本。

優(yōu)選的，所述根據(jù)比較結(jié)果，確定新增文本區(qū)域的步驟包括：

若所述比較結(jié)果為所述T(n)時刻的視頻流圖像的文本區(qū)域包含所述T(n-1)時刻的視頻流圖像的文本區(qū)域，則確定所述T(n)時刻的視頻流圖像的文本區(qū)域的重疊區(qū)域；

獲得第一圖像信息和第二圖像信息，所述第一圖像信息為所述T(n)時刻的視頻流圖像的文本區(qū)域的重疊區(qū)域的圖像信息，第二圖像信息為所述T(n-1)時刻的視頻流圖像的文本區(qū)域的圖像信息；

比較所述第一圖像信息和所述第二圖像信息；

若所述第一圖像信息與所述第二圖像信息相同，且所述T(n)時刻的視頻流圖像的文本區(qū)域具有超過所述T(n-1)時刻的視頻流圖像的文本區(qū)域的區(qū)域，則將所述T(n)時刻的視頻流圖像的文本區(qū)域超過所述T(n-1)時刻的視頻流圖像的文本區(qū)域的區(qū)域，確定為新增文本區(qū)域。

優(yōu)選的，還包括：

若所述第一圖像信息與第二圖像信息相同，且所述T(n)時刻的視頻流圖像的文本區(qū)域不具有超過所述T(n-1)時刻的視頻流圖像的文本區(qū)域的區(qū)域，則將所述T(n-1)時刻的視頻流圖像的識別文本，作為T(n)時刻的視頻流圖像的識別文本。

優(yōu)選的，還包括：

若所述第一圖像信息與第二圖像信息不相同，則對所述T(n)時刻的視頻流圖像的文本區(qū)域進行文本識別，獲得T(n)時刻的視頻流圖像的識別文本。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京搜狗科技發(fā)展有限公司，未經(jīng)北京搜狗科技發(fā)展有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710050733.X/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種目標遮擋檢測的方法及裝置
下一篇：圖像語義分割模型的訓練方法及圖像語義分割方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06K 數(shù)據(jù)識別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復掃描圖形的方法
G06K9-18 .應用具有附加代碼標記或含有代碼標記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預處理，即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】