[發明專利]一種視頻流文本識別方法和裝置在審
| 申請號: | 201710050733.X | 申請日: | 2017-01-23 |
| 公開(公告)號: | CN108345886A | 公開(公告)日: | 2018-07-31 |
| 發明(設計)人: | 許盛輝;馬龍;蘇雪峰 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/46 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 趙娟 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻流圖像 文本區域 文本 文本識別 方法和裝置 視頻流 預設時間間隔 整幅圖像 重疊信息 申請 圖像 檢測 | ||
1.一種視頻流文本識別方法,其特征在于,包括:
按照預設時間間隔獲取視頻流圖像;
檢測所述視頻流圖像中的文本區域;
比較T(n)時刻的視頻流圖像的文本區域與T(n-1)時刻的視頻流圖像的文本區域;
根據比較結果,確定新增文本區域;
對所述新增文本區域進行文本識別,獲得新增識別文本;
將所述新增識別文本與針對T(n-1)時刻的視頻流圖像的識別文本組合為T(n)時刻的視頻流圖像的識別文本。
2.根據權利要求1所述的方法,其特征在于,所述根據比較結果,確定新增文本區域的步驟包括:
若所述比較結果為所述T(n)時刻的視頻流圖像的文本區域包含所述T(n-1)時刻的視頻流圖像的文本區域,則確定所述T(n)時刻的視頻流圖像的文本區域的重疊區域;
獲得第一圖像信息和第二圖像信息,所述第一圖像信息為所述T(n)時刻的視頻流圖像的文本區域的重疊區域的圖像信息,第二圖像信息為所述T(n-1)時刻的視頻流圖像的文本區域的圖像信息;
比較所述第一圖像信息和所述第二圖像信息;
若所述第一圖像信息與所述第二圖像信息相同,且所述T(n)時刻的視頻流圖像的文本區域具有超過所述T(n-1)時刻的視頻流圖像的文本區域的區域,則將所述T(n)時刻的視頻流圖像的文本區域超過所述T(n-1)時刻的視頻流圖像的文本區域的區域,確定為新增文本區域。
3.根據權利要求2所述的方法,其特征在于,還包括:
若所述第一圖像信息與第二圖像信息相同,且所述T(n)時刻的視頻流圖像的文本區域不具有超過所述T(n-1)時刻的視頻流圖像的文本區域的區域,則將所述T(n-1)時刻的視頻流圖像的識別文本,作為T(n)時刻的視頻流圖像的識別文本。
4.根據權利要求2或3所述的方法,其特征在于,還包括:
若所述第一圖像信息與第二圖像信息不相同,則對所述T(n)時刻的視頻流圖像的文本區域進行文本識別,獲得T(n)時刻的視頻流圖像的識別文本。
5.根據權利要求2所述的方法,其特征在于,還包括:
若所述比較結果為所述T(n)時刻的視頻流圖像的文本區域未包含所述T(n-1)時刻的視頻流圖像的文本區域,則對所述T(n)時刻的視頻流圖像的文本區域進行文本識別,獲得T(n)時刻的視頻流圖像的識別文本。
6.根據權利要求1所述的方法,其特征在于,所述檢測所述視頻流圖像中的文本區域的步驟包括:
對所述視頻流圖像進行二值化處理;
確定經過二值化處理的視頻流圖像中的連通域;
對所述經過二值化處理的視頻流圖像中的連通域進行合并,得到文本區域。
7.根據權利要求1所述的方法,其特征在于,所述對所述新增文本區域進行文本識別,獲得新增識別文本的步驟包括:
將所述新增文本區域輸入預置的深度神經元網絡;
將所述深度神經元網絡的輸出結果,作為新增識別文本。
8.根據權利要求4或5所述的方法,其特征在于,所述對所述T(n)時刻的視頻流圖像的文本區域進行文本識別,獲得T(n)時刻的視頻流圖像的識別文本的步驟包括:
對所述T(n)時刻的視頻流圖像進行二值化處理,確定經過二值化處理的視頻流圖像中的連通域;
對所述T(n)時刻的視頻流圖像的文本區域按照連通域進行切分,得到多個子區域;
將各個子區域輸入預置的深度神經元網絡;
將所述深度神經元網絡針對各個子區域的輸出結果,作為識別文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710050733.X/1.html,轉載請聲明來源鉆瓜專利網。





