[發(fā)明專利]視頻文本識別網(wǎng)絡(luò)模型、視頻文本識別裝置與電子設(shè)備在審

申請?zhí)枺?/td>	202010082008.2	申請日：	2020-02-06
公開（公告）號：	CN111274985A	公開（公告）日：	2020-06-12
發(fā)明（設(shè)計）人：	任化強	申請（專利權(quán)）人：	咪咕文化科技有限公司;中國移動通信集團有限公司
主分類號：	G06K9/00	分類號：	G06K9/00;G06K9/32;G06K9/34;G06N3/04;G06N3/08
代理公司：	上海晨皓知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 31260	代理人：	成麗杰
地址：	100088 北京市西城區(qū)德***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	視頻文本識別網(wǎng)絡(luò) 模型裝置電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種視頻文本識別網(wǎng)絡(luò)模型，其特征在于，包括：

文本區(qū)域提取模塊，用于從接收到的視頻幀的特征圖像中提取包含文字信息的文本框區(qū)域信息；

文字檢測模塊，用于根據(jù)所述文本框區(qū)域信息，從所述特征圖像中提取文字區(qū)域信息與文字特征圖；

文字識別模塊，用于根據(jù)所述文字區(qū)域信息，從所述文字特征圖中識別出文字信息。

2.根據(jù)權(quán)利要求1所述的視頻文本識別網(wǎng)絡(luò)模型，其特征在于，在訓(xùn)練過程中所采用的所述視頻文本識別網(wǎng)絡(luò)模型的損失函數(shù)為：L_模型＝aL_RPN+L_TDN+L_TRN；L_模型表示所述視頻文本識別網(wǎng)絡(luò)模型的損失函數(shù)，L_RPN表示所述文本區(qū)域提取模塊的損失函數(shù)，L_TDN表示所述文字檢測模塊的損失函數(shù)，L_TRN表示所述文字識別模塊的損失函數(shù)，0＜a≤1。

3.根據(jù)權(quán)利要求1所述的視頻文本識別網(wǎng)絡(luò)模型，其特征在于，所述視頻文本識別網(wǎng)絡(luò)模型的訓(xùn)練過程如下：

將樣本庫中的多個視頻幀的訓(xùn)練圖像輸入到所述視頻文本識別網(wǎng)絡(luò)模型，得到所述視頻文本識別網(wǎng)絡(luò)模型輸出的多個識別結(jié)果；所述識別結(jié)果包括所述文本區(qū)域提取模塊的預(yù)測文本框區(qū)域信息、所述文字檢測模塊的預(yù)測文字區(qū)域信息以及所述文字識別模塊的預(yù)測文本標(biāo)簽序列；

對于每個所述訓(xùn)練圖像，將所述訓(xùn)練圖像的標(biāo)注信息與所述訓(xùn)練圖像對應(yīng)的所述識別結(jié)果代入所述視頻文本識別網(wǎng)絡(luò)模型的損失函數(shù)，得到所述視頻文本識別網(wǎng)絡(luò)模型的損失函數(shù)值；

根據(jù)所述視頻文本識別網(wǎng)絡(luò)模型的損失函數(shù)值，對所述視頻文本識別網(wǎng)絡(luò)模型進行優(yōu)化處理。

4.根據(jù)權(quán)利要求2所述的視頻文本識別網(wǎng)絡(luò)模型，其特征在于，

其中，N表示預(yù)設(shè)的錨框的數(shù)量，N’表示值為正的錨框的數(shù)量，λ為預(yù)設(shè)值，P_i表示第i個錨框的置信度，P_i^*表示所述標(biāo)注信息中第i個錨框的置信度，t_i表示第i個錨框的位置向量，t_i^*表示所述標(biāo)注信息中第i個錨框的位置向量，L_cls表示損失函數(shù)的分類部分，L_reg表示損失函數(shù)的回歸部分。

5.根據(jù)權(quán)利要求4所述的視頻文本識別網(wǎng)絡(luò)模型，其特征在于，L_cls為交叉熵函數(shù)，L_reg為Smooth函數(shù)。

6.根據(jù)權(quán)利要求2所述的視頻文本識別網(wǎng)絡(luò)模型，其特征在于，

其中，l_i表示第i個所述訓(xùn)練圖像的標(biāo)識信息中的文本標(biāo)簽序列，y_i表示所述文字識別模塊輸出的第i個所述訓(xùn)練圖像的預(yù)測文本標(biāo)簽序列。

7.根據(jù)權(quán)利要求1所述的視頻文本識別網(wǎng)絡(luò)模型，其特征在于，a為0.5。

8.根據(jù)權(quán)利要求1所述的視頻文本識別網(wǎng)絡(luò)模型，其特征在于，所述視頻文本識別網(wǎng)絡(luò)模型還包括：

圖像特征提取模塊，用于從輸入的視頻幀的圖像中獲取所述特征圖像。

9.一種視頻文本識別裝置，其特征在于，包括：權(quán)利要求1至8中任一項所述的視頻文本識別網(wǎng)絡(luò)模型。

10.一種電子設(shè)備，其特征在于，包括：權(quán)利要求9所述的視頻文本識別網(wǎng)絡(luò)模型。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于咪咕文化科技有限公司;中國移動通信集團有限公司，未經(jīng)咪咕文化科技有限公司;中國移動通信集團有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010082008.2/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：纖維基摩擦納米發(fā)電機、布料、傳感器和傳感裝置
下一篇：一種基于無監(jiān)督分類器的電商評論情感分析方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06K 數(shù)據(jù)識別；數(shù)據(jù)表示；記錄載體；記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形，例如，指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正，例如，用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的，例如，由不同形狀的各個筆畫組成的，而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理，即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】