[發(fā)明專利]一種目標(biāo)信息的識別方法及設(shè)備有效

申請?zhí)枺?/td>	201811123345.0	申請日：	2018-09-26
公開（公告）號：	CN109168024B	公開（公告）日：	2022-05-27
發(fā)明（設(shè)計）人：	韋享忠	申請（專利權(quán)）人：	平安科技（深圳）有限公司
主分類號：	H04N21/234	分類號：	H04N21/234;H04N21/233;H04N21/44;H04N21/439
代理公司：	深圳中一專利商標(biāo)事務(wù)所 44237	代理人：	官建紅
地址：	518000 廣東省深圳市福田區(qū)福***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種目標(biāo) 信息識別方法設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種目標(biāo)信息的識別方法，其特征在于，包括：

若接收到待識別的視頻文件，則對所述視頻文件進(jìn)行解析，得到所述視頻文件的圖像軌道數(shù)據(jù)以及音頻軌道數(shù)據(jù)；

提取所述圖像軌道數(shù)據(jù)中每一視頻圖像幀的圖像特征值；

基于所述圖像特征值檢測各個所述視頻圖像幀是否包含目標(biāo)信息，并標(biāo)記包含所述目標(biāo)信息的所述視頻圖像幀；

對所述音頻軌道數(shù)據(jù)進(jìn)行語音識別，確定所述音頻軌道數(shù)據(jù)對應(yīng)的臺詞文本；

若所述臺詞文本包含所述目標(biāo)信息關(guān)聯(lián)的特征關(guān)鍵詞，則在所述音頻軌道數(shù)據(jù)中標(biāo)記所述特征關(guān)鍵詞的音頻段落；

基于標(biāo)記的所述視頻圖像幀以及所述音頻段落，生成所述視頻文件的目標(biāo)信息記錄；

所述對所述音頻軌道數(shù)據(jù)進(jìn)行語音識別，確定所述音頻軌道數(shù)據(jù)對應(yīng)的臺詞文本，包括：

對所述音頻軌道數(shù)據(jù)進(jìn)行傅里葉變換，生成所述音頻軌道數(shù)據(jù)的頻域數(shù)據(jù)；

根據(jù)所述頻域數(shù)據(jù)以及人體可發(fā)聲頻段范圍，將所述頻域數(shù)據(jù)劃分為環(huán)境音頻段數(shù)據(jù)以及人聲頻段數(shù)據(jù)；

基于所述環(huán)境音頻段數(shù)據(jù)，確定所述視頻文件的拍攝場景信息；

對所述人聲頻段數(shù)據(jù)進(jìn)行逆傅里葉變換，得到人聲軌道數(shù)據(jù)，并對所述人聲軌道數(shù)據(jù)進(jìn)行語音識別，確定對話文本；

根據(jù)所述拍攝場景信息以及所述對話文本，生成所述臺詞文本。

2.根據(jù)權(quán)利要求1所述的識別方法，其特征在于，所述提取所述圖像軌道數(shù)據(jù)中每一視頻圖像幀的圖像特征值，包括：

對所述視頻圖像幀進(jìn)行輪廓識別處理，獲取所述視頻圖像幀內(nèi)拍攝主體的輪廓信息，并根據(jù)所述輪廓信息從所述視頻圖像幀中截取各個拍攝主體的區(qū)域圖像；

通過預(yù)設(shè)的視覺組神經(jīng)網(wǎng)絡(luò)的五層池化層對所述拍攝主體的區(qū)域圖像進(jìn)行降維，得到該拍攝主體的視覺特征向量；其中，所述五層池化層具體為：

V₁(A_mn)＝mp₁(3，64，A_mn)；

V₂(A_mn)＝mp₂(3，128，V₁(A_mn))；

V₃(A_mn)＝mp₃(3，256，V₂(A_mn))；

V₄(A_mn)＝mp₄(3，512，V₂(A_mn))；

V₅(A_mn)＝mp₅(1，1，V₄(A_mn))；

其中，所述A_mn為拍攝主體的區(qū)域圖像；所述V₁(A_mn)、V₂(A_mn)、V₃(A_mn)以及V₄(A_mn)分別為第1到第4層池化層降維后的輸出向量；所述V₅(A_mn)為所述視覺特征向量；所述m為所述拍攝主體的區(qū)域圖像的行數(shù)；所述n為在所述拍攝主體的區(qū)域圖像的列數(shù)；

將各個所述視覺特征向量導(dǎo)入所述視覺組神經(jīng)網(wǎng)絡(luò)的全連接層，輸出所述視頻圖像幀的所述圖像特征值。

3.根據(jù)權(quán)利要求1-2任一項所述的識別方法，其特征在于，在所述基于標(biāo)記的所述視頻圖像幀以及所述音頻段落，生成所述視頻文件的目標(biāo)信息記錄之后，還包括：

對標(biāo)記的所述視頻圖像幀進(jìn)行圖像模糊處理，生成模糊處理后的視頻圖像幀；

對所述音頻段落進(jìn)行消音處理，生成消音后的音頻段落；

根據(jù)所述模糊處理后的視頻圖像幀以及所述消音后的音頻段落修改所述視頻文件，并發(fā)布修改后的所述視頻文件。

4.根據(jù)權(quán)利要求1-2任一項所述的識別方法，其特征在于，所述基于所述圖像特征值檢測各個所述視頻圖像幀是否包含目標(biāo)信息，包括：

基于拍攝對象索引表，確定所述圖像特征值對應(yīng)的拍攝對象；

檢測所述拍攝對象是否在所述目標(biāo)信息關(guān)聯(lián)的特征對象列表。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技（深圳）有限公司，未經(jīng)平安科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811123345.0/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種可伸縮視頻流的緩存方法
下一篇：一種跨平臺的可標(biāo)記審計視頻敏感操作的視頻播放方法

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04N 圖像通信，如電視
H04N21-00 可選的內(nèi)容分發(fā)，例如交互式電視，VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器，例如：VOD服務(wù)器；其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備，如STB[機(jī)頂盒]；相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理；內(nèi)容本身
H04N21-81 ..其單媒體部件

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】