[發(fā)明專利]視頻文本識別網(wǎng)絡模型、視頻文本識別裝置與電子設備在審

申請?zhí)枺?/td>	202010082008.2	申請日：	2020-02-06
公開（公告）號：	CN111274985A	公開（公告）日：	2020-06-12
發(fā)明（設計）人：	任化強	申請（專利權）人：	咪咕文化科技有限公司;中國移動通信集團有限公司
主分類號：	G06K9/00	分類號：	G06K9/00;G06K9/32;G06K9/34;G06N3/04;G06N3/08
代理公司：	上海晨皓知識產權代理事務所(普通合伙) 31260	代理人：	成麗杰
地址：	100088 北京市西城區(qū)德***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	視頻文本識別網(wǎng)絡模型裝置電子設備
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明實施例涉及計算機技術領域，公開了一種視頻文本識別網(wǎng)絡模型、視頻文本識別裝置與電子設備。視頻文本識別網(wǎng)絡模型，包括：文本區(qū)域提取模塊，用于從接收到的視頻幀的特征圖像中提取包含文字信息的文本框區(qū)域信息；文字檢測模塊，用于根據(jù)所述文本框區(qū)域信息，從所述特征圖像中提取文字區(qū)域信息與文字特征圖；文字識別模塊，用于根據(jù)所述文字區(qū)域信息，從所述文字特征圖中識別出文字信息。本發(fā)明中，文本區(qū)域提取模塊和文字檢測模塊均利用原始的特征圖像進行特征提取，減小了文本區(qū)域提取模塊輸出的結果對文字檢測模塊的影響，同時簡化了文字信息的提取流程，提高了文字識別效率。

技術領域

本發(fā)明實施例涉及計算機技術領域，特別涉及一種視頻文本識別網(wǎng)絡模型、視頻文本識別裝置與電子設備。

背景技術

隨著互聯(lián)網(wǎng)的飛速發(fā)展，使得用戶可以通過各種終端獲取各類型比賽的視頻，例如籃球、足球以及網(wǎng)球等。在獲取比賽視頻中的比分時，可以通過文字識別技術與背景識別技術對視頻圖像中的比分區(qū)域進行檢測，然后對比分區(qū)域中的具體比分進行檢測和識別。

發(fā)明人發(fā)現(xiàn)現(xiàn)有技術中至少存在如下問題：在比分識別過程，每個環(huán)節(jié)均采用獨立串行的算法，前面環(huán)節(jié)的檢測結果準確度對后續(xù)各環(huán)節(jié)的檢測識別都有較大影響，算法依賴程度較高。

發(fā)明內容

本發(fā)明實施方式的目的在于提供一種視頻文本識別網(wǎng)絡模型、視頻文本識別裝置與電子設備，文本區(qū)域提取模塊和文字檢測模塊均利用原始的特征圖像進行特征提取，減小了文本區(qū)域提取模塊輸出的結果對文字檢測模塊的影響，同時簡化了文字信息的提取流程，提高了文字識別效率。

為解決上述技術問題，本發(fā)明的實施方式提供了一種視頻文本識別網(wǎng)絡模型，包括：文本區(qū)域提取模塊，用于從接收到的視頻幀的特征圖像中提取包含文字信息的文本框區(qū)域信息；文字檢測模塊，用于根據(jù)所述文本框區(qū)域信息，從所述特征圖像中提取文字區(qū)域信息與文字特征圖；文字識別模塊，用于根據(jù)所述文字區(qū)域信息，從所述文字特征圖中識別出文字信息。

本發(fā)明的實施方式還提供了一種視頻文本識別裝置，包括上述的視頻文本識別網(wǎng)絡模型。

本發(fā)明的實施方式還提供了一種電子設備，包括上述的視頻文本識別裝置。

本發(fā)明實施方式相對于現(xiàn)有技術而言，利用文本區(qū)域提取模塊從接收到的視頻幀的特征圖像中提取包含文字信息的文本框區(qū)域信息，再通過文字檢測模塊根據(jù)文本框區(qū)域信息，從特征圖像中提取文字區(qū)域信息與文字特征圖，繼而文字識別模塊能夠根據(jù)文字區(qū)域信息，從文字特征圖中識別出文字信息，文本區(qū)域提取模塊和文字檢測模塊均利用原始的特征圖像進行特征提取，減小了文本區(qū)域提取模塊輸出的結果對文字檢測模塊的影響，同時簡化了文字信息的提取流程，提高了文字識別效率。

另外，在訓練過程中所采用的所述視頻文本識別網(wǎng)絡模型的損失函數(shù)為：L_模型＝aL_RPN+L_TDN+L_TRN；L_模型表示所述視頻文本識別網(wǎng)絡模型的損失函數(shù)，L_RPN表示所述文本區(qū)域提取模塊的損失函數(shù)，L_TDN表示所述文字檢測模塊的損失函數(shù)，L_TRN表示所述文字識別模塊的損失函數(shù)，0＜a≤1。本實施方式中，在對視頻文本識別網(wǎng)絡模型進行訓練時，通過設置的視頻文本識別網(wǎng)絡模型的損失函數(shù)整合了文本區(qū)域提取模塊、文字檢測模塊以及文字識別模塊，從而在對視頻文本識別網(wǎng)絡模型進行訓練時，結合了三個模塊的反饋結果來對視頻文本識別網(wǎng)絡模型進行優(yōu)化，能夠得到效果更好的視頻文本識別網(wǎng)絡模型。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于咪咕文化科技有限公司;中國移動通信集團有限公司，未經(jīng)咪咕文化科技有限公司;中國移動通信集團有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010082008.2/2.html，轉載請聲明來源鉆瓜專利網(wǎng)。

上一篇：纖維基摩擦納米發(fā)電機、布料、傳感器和傳感裝置
下一篇：一種基于無監(jiān)督分類器的電商評論情感分析方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06K 數(shù)據(jù)識別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復掃描圖形的方法
G06K9-18 .應用具有附加代碼標記或含有代碼標記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預處理，即無須判定關于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】