[發(fā)明專利]視頻文本識別網(wǎng)絡模型、視頻文本識別裝置與電子設備在審
| 申請?zhí)枺?/td> | 202010082008.2 | 申請日: | 2020-02-06 |
| 公開(公告)號: | CN111274985A | 公開(公告)日: | 2020-06-12 |
| 發(fā)明(設計)人: | 任化強 | 申請(專利權)人: | 咪咕文化科技有限公司;中國移動通信集團有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 上海晨皓知識產權代理事務所(普通合伙) 31260 | 代理人: | 成麗杰 |
| 地址: | 100088 北京市西城區(qū)德*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 文本 識別 網(wǎng)絡 模型 裝置 電子設備 | ||
本發(fā)明實施例涉及計算機技術領域,公開了一種視頻文本識別網(wǎng)絡模型、視頻文本識別裝置與電子設備。視頻文本識別網(wǎng)絡模型,包括:文本區(qū)域提取模塊,用于從接收到的視頻幀的特征圖像中提取包含文字信息的文本框區(qū)域信息;文字檢測模塊,用于根據(jù)所述文本框區(qū)域信息,從所述特征圖像中提取文字區(qū)域信息與文字特征圖;文字識別模塊,用于根據(jù)所述文字區(qū)域信息,從所述文字特征圖中識別出文字信息。本發(fā)明中,文本區(qū)域提取模塊和文字檢測模塊均利用原始的特征圖像進行特征提取,減小了文本區(qū)域提取模塊輸出的結果對文字檢測模塊的影響,同時簡化了文字信息的提取流程,提高了文字識別效率。
技術領域
本發(fā)明實施例涉及計算機技術領域,特別涉及一種視頻文本識別網(wǎng)絡模型、視頻文本識別裝置與電子設備。
背景技術
隨著互聯(lián)網(wǎng)的飛速發(fā)展,使得用戶可以通過各種終端獲取各類型比賽的視頻,例如籃球、足球以及網(wǎng)球等。在獲取比賽視頻中的比分時,可以通過文字識別技術與背景識別技術對視頻圖像中的比分區(qū)域進行檢測,然后對比分區(qū)域中的具體比分進行檢測和識別。
發(fā)明人發(fā)現(xiàn)現(xiàn)有技術中至少存在如下問題:在比分識別過程,每個環(huán)節(jié)均采用獨立串行的算法,前面環(huán)節(jié)的檢測結果準確度對后續(xù)各環(huán)節(jié)的檢測識別都有較大影響,算法依賴程度較高。
發(fā)明內容
本發(fā)明實施方式的目的在于提供一種視頻文本識別網(wǎng)絡模型、視頻文本識別裝置與電子設備,文本區(qū)域提取模塊和文字檢測模塊均利用原始的特征圖像進行特征提取,減小了文本區(qū)域提取模塊輸出的結果對文字檢測模塊的影響,同時簡化了文字信息的提取流程,提高了文字識別效率。
為解決上述技術問題,本發(fā)明的實施方式提供了一種視頻文本識別網(wǎng)絡模型,包括:文本區(qū)域提取模塊,用于從接收到的視頻幀的特征圖像中提取包含文字信息的文本框區(qū)域信息;文字檢測模塊,用于根據(jù)所述文本框區(qū)域信息,從所述特征圖像中提取文字區(qū)域信息與文字特征圖;文字識別模塊,用于根據(jù)所述文字區(qū)域信息,從所述文字特征圖中識別出文字信息。
本發(fā)明的實施方式還提供了一種視頻文本識別裝置,包括上述的視頻文本識別網(wǎng)絡模型。
本發(fā)明的實施方式還提供了一種電子設備,包括上述的視頻文本識別裝置。
本發(fā)明實施方式相對于現(xiàn)有技術而言,利用文本區(qū)域提取模塊從接收到的視頻幀的特征圖像中提取包含文字信息的文本框區(qū)域信息,再通過文字檢測模塊根據(jù)文本框區(qū)域信息,從特征圖像中提取文字區(qū)域信息與文字特征圖,繼而文字識別模塊能夠根據(jù)文字區(qū)域信息,從文字特征圖中識別出文字信息,文本區(qū)域提取模塊和文字檢測模塊均利用原始的特征圖像進行特征提取,減小了文本區(qū)域提取模塊輸出的結果對文字檢測模塊的影響,同時簡化了文字信息的提取流程,提高了文字識別效率。
另外,在訓練過程中所采用的所述視頻文本識別網(wǎng)絡模型的損失函數(shù)為:L模型=aLRPN+LTDN+LTRN;L模型表示所述視頻文本識別網(wǎng)絡模型的損失函數(shù),LRPN表示所述文本區(qū)域提取模塊的損失函數(shù),LTDN表示所述文字檢測模塊的損失函數(shù),LTRN表示所述文字識別模塊的損失函數(shù),0<a≤1。本實施方式中,在對視頻文本識別網(wǎng)絡模型進行訓練時,通過設置的視頻文本識別網(wǎng)絡模型的損失函數(shù)整合了文本區(qū)域提取模塊、文字檢測模塊以及文字識別模塊,從而在對視頻文本識別網(wǎng)絡模型進行訓練時,結合了三個模塊的反饋結果來對視頻文本識別網(wǎng)絡模型進行優(yōu)化,能夠得到效果更好的視頻文本識別網(wǎng)絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于咪咕文化科技有限公司;中國移動通信集團有限公司,未經(jīng)咪咕文化科技有限公司;中國移動通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010082008.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質
- 網(wǎng)絡管理方法和裝置





