[發明專利]一種視頻文字跟蹤方法及電子設備有效
| 申請號: | 202010108338.4 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN113297875B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 湯其森;姚恒志 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V20/62;G06T7/246 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;李稷芳 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 文字 跟蹤 方法 電子設備 | ||
一種視頻文字跟蹤方法及電子設備。在該方法中,將文本行區域拆分為各個子區域,對各子區域進行跟蹤再經過處理聯結成新文本行。實施本申請提供的技術方案,不僅可以兼容于直線文本或者彎曲文本場景,對于展現出形變性質的文本行也有很好的跟蹤效果,能夠準確跟蹤預測文本行的位置。
技術領域
本申請涉及人工智能(Artificial?Intelligence,AI)領域中光學字符識別(Optical?Character?Recognition,OCR)子領域,尤其涉及一種視頻文字跟蹤方法及電子設備。
背景技術
實景增強現實(Augmented?Reality,AR)翻譯與拍照翻譯最大的不同在于:AR翻譯無需先拍照再識別圖片內容,而是對攝像頭中的文字內容呈現實時翻譯效果,只要用戶將攝像頭對準需要翻譯的內容,它就可以在原文位置給出準確的實時翻譯。實景AR翻譯的整個過程完全是動態的,比起以往的拍照翻譯,體驗上有了跨越式升級,尤其適用于旅游、海淘購物、閱讀外文文獻等場景。
AR翻譯的全流程涉及到OCR文字檢測識別、文字跟蹤(追蹤)、機器翻譯、AR渲染、翻譯文字回填等技術。由于進行OCR耗時較長(百毫秒至秒級每視頻幀),在實際拍攝場景中手機或相機的鏡頭移動時不可能通過逐幀進行OCR的方式得到文本行的位置,這樣的方案無法滿足實時性,因此在AR翻譯產品中對前期OCR識別出的文字進行跟蹤,預測提供文本行的位置,是實時展現翻譯效果的必要保證。此外,實景AR翻譯的技術也可以應用于視頻字幕自動翻譯回填等場景中,快速完成視頻中每一幀的字幕翻譯,極大地節省人力。
目前,如圖1所示,為了處理取景時文本行邊框與取景邊框各邊不平行所導致的文本行傾斜問題,每行直線文本的位置一般用一個傾斜矩形確定。當前使用較多的技術方案是:首先對鏡頭穩定后的第一個視頻幀進行OCR,檢測與識別出視頻幀中的文本行位置及文字內容,其次在每個文本行區域中使用角點等關鍵點檢測技術確定一定數目的追蹤點,再采用光流等跟蹤方法得到這些追蹤點在下一個視頻幀中的對應位置,從而可以計算出每個文本行區域在兩個視頻幀之間的投影變換矩陣(或單應性矩陣),將投影矩陣作用于文本行區域傾斜矩形的四個頂點即可得到文本行在下一幀中的位置,進而進行翻譯文字回填;重復上述追蹤過程,直到有文本行移出取景視野以外或者被其他物體遮擋等情形,使得能在相鄰兩幀中找出對應位置的追蹤點數目比例(相對于做OCR的第一幀)小于閾值時,認為此次跟蹤失敗,待鏡頭穩定時重新進行OCR開始另一次跟蹤流程。該方法的應用,使得即使文本行相對取景時傾斜角度發生變化,也能跟蹤到文本行在最新的視頻幀中的文本行位置,在相應位置進行回填。
然而,現有技術在處理彎曲文本的跟蹤問題時有缺陷:當跟蹤彎曲文本時,用于框定文本行位置的傾斜矩形中存在著大量文本區域以外的空白,如果用目標檢測常用的IOU(實際文本區域與預測文本區域的面積交并比)作為衡量指標的話,雖然實際文字區域與預測區域間的相交面積可能并不小,但是使用較大的預測區域做歸一化之后,衡量指標的數值一定是不甚理想的;這樣的彎曲文本常常出現在圖2所示的商店招牌以及視頻的藝術字旁白或字幕等場景中。
其次,對于可以形變的彎曲文本,例如瓶裝飲料的外包裝文本,如圖3所示,在拍攝角度變化時,文本的“朝向”也會發生變化,傾斜矩形更是無法在形狀上體現這樣的變化。
因此,現有技術在對彎曲文本進行跟蹤時,無法準確地跟蹤定位視頻文本行的位置。
發明內容
本申請提供了一種視頻文字跟蹤方法及電子設備,區別于現有技術針對全文本行進行跟蹤,將文本行區域拆分為各個子區域,對各子區域進行跟蹤再經過處理聯結成新文本行,不僅可以兼容于直線文本(文字中心點在一條直線上)或者彎曲文本場景,對于展現出形變性質的文本行也有很好的跟蹤效果,能夠準確跟蹤預測文本行的位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010108338.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:觸控模組及其制作方法、顯示裝置
- 下一篇:射頻線安裝檢測裝置及終端





