[發(fā)明專利]一種視頻流文本識別方法和裝置在審
| 申請?zhí)枺?/td> | 201710050733.X | 申請日: | 2017-01-23 |
| 公開(公告)號: | CN108345886A | 公開(公告)日: | 2018-07-31 |
| 發(fā)明(設(shè)計)人: | 許盛輝;馬龍;蘇雪峰 | 申請(專利權(quán))人: | 北京搜狗科技發(fā)展有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/46 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 趙娟 |
| 地址: | 100084 北京市海淀區(qū)中關(guān)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻流圖像 文本區(qū)域 文本 文本識別 方法和裝置 視頻流 預設(shè)時間間隔 整幅圖像 重疊信息 申請 圖像 檢測 | ||
本申請實施例提供了一種視頻流文本識別方法和裝置,包括:按照預設(shè)時間間隔獲取視頻流圖像;檢測所述視頻流圖像中的文本區(qū)域;比較T(n)時刻的視頻流圖像的文本區(qū)域與T(n?1)時刻的視頻流圖像的文本區(qū)域;根據(jù)比較結(jié)果,確定新增文本區(qū)域;對所述新增文本區(qū)域進行文本識別,獲得新增識別文本;將所述新增識別文本與針對T(n?1)時刻的視頻流圖像的識別文本組合為T(n)時刻的視頻流圖像的識別文本。本申請實施例中,利用了前后幀的圖像的重疊信息,將對整幅圖像的識別簡化為對新增識別區(qū)域中的文本進行識別,減少了需要識別的文本的數(shù)量,從而提高對視頻流圖像進行識別的速度。
技術(shù)領(lǐng)域
本申請涉及圖像處理技術(shù)領(lǐng)域,特別是涉及一種視頻流文本識別方法和一種視頻流文本識別裝置。
背景技術(shù)
光學字符識別OCR(Optical Character Recognition)技術(shù)是圖像處理領(lǐng)域的一種重要技術(shù),可以實現(xiàn)對圖像中的文字進行識別。
光學字符識別技術(shù)不僅僅可以用來對單張的圖像進行識別,也可以對視頻流中出現(xiàn)的文字進行識別。目前,在對視頻流中出現(xiàn)的文字進行識別的方式為:獲取視頻流中的圖像,對獲取的整幅圖像中的字符進行識別。
這種對整幅圖像進行識別的方法,識別速度慢,對完整視頻流進行文本識別將需要耗費大量的時間,對實時性要求很高的需求難以滿足。
發(fā)明內(nèi)容
鑒于上述問題,提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的一種視頻流文本識別方法和一種視頻流文本識別裝置。
為了解決上述問題,本申請實施例公開了一種視頻流文本識別方法,包括:
按照預設(shè)時間間隔獲取視頻流圖像;
檢測所述視頻流圖像中的文本區(qū)域;
比較T(n)時刻的視頻流圖像的文本區(qū)域與T(n-1)時刻的視頻流圖像的文本區(qū)域;
根據(jù)比較結(jié)果,確定新增文本區(qū)域;
對所述新增文本區(qū)域進行文本識別,獲得新增識別文本;
將所述新增識別文本與針對T(n-1)時刻的視頻流圖像的識別文本組合為T(n)時刻的視頻流圖像的識別文本。
優(yōu)選的,所述根據(jù)比較結(jié)果,確定新增文本區(qū)域的步驟包括:
若所述比較結(jié)果為所述T(n)時刻的視頻流圖像的文本區(qū)域包含所述T(n-1)時刻的視頻流圖像的文本區(qū)域,則確定所述T(n)時刻的視頻流圖像的文本區(qū)域的重疊區(qū)域;
獲得第一圖像信息和第二圖像信息,所述第一圖像信息為所述T(n)時刻的視頻流圖像的文本區(qū)域的重疊區(qū)域的圖像信息,第二圖像信息為所述T(n-1)時刻的視頻流圖像的文本區(qū)域的圖像信息;
比較所述第一圖像信息和所述第二圖像信息;
若所述第一圖像信息與所述第二圖像信息相同,且所述T(n)時刻的視頻流圖像的文本區(qū)域具有超過所述T(n-1)時刻的視頻流圖像的文本區(qū)域的區(qū)域,則將所述T(n)時刻的視頻流圖像的文本區(qū)域超過所述T(n-1)時刻的視頻流圖像的文本區(qū)域的區(qū)域,確定為新增文本區(qū)域。
優(yōu)選的,還包括:
若所述第一圖像信息與第二圖像信息相同,且所述T(n)時刻的視頻流圖像的文本區(qū)域不具有超過所述T(n-1)時刻的視頻流圖像的文本區(qū)域的區(qū)域,則將所述T(n-1)時刻的視頻流圖像的識別文本,作為T(n)時刻的視頻流圖像的識別文本。
優(yōu)選的,還包括:
若所述第一圖像信息與第二圖像信息不相同,則對所述T(n)時刻的視頻流圖像的文本區(qū)域進行文本識別,獲得T(n)時刻的視頻流圖像的識別文本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京搜狗科技發(fā)展有限公司,未經(jīng)北京搜狗科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710050733.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 經(jīng)歷光學字符識別的圖像的頁面布局確定
- 一種基于塊投影的藏文歷史文獻文本區(qū)域提取方法
- 文本區(qū)域檢測方法及裝置、文本檢測方法、計算機可讀介質(zhì)
- 一種文本區(qū)域劃分方法、裝置、設(shè)備及存儲介質(zhì)
- 圖像中文本區(qū)域的位置確定方法、裝置、設(shè)備及存儲介質(zhì)
- 圖像中文本區(qū)域的檢測方法、裝置、計算機設(shè)備及計算機存儲介質(zhì)
- 一種文本檢測方法、文本檢測裝置、電子設(shè)備及存儲介質(zhì)
- 文本布局方法、裝置、存儲介質(zhì)及終端
- 圖像識別方法、裝置、終端和存儲介質(zhì)
- 文本檢測方法、裝置、電子設(shè)備及計算機存儲介質(zhì)





