[發(fā)明專利]一種目標(biāo)信息的識別方法及設(shè)備有效
| 申請?zhí)枺?/td> | 201811123345.0 | 申請日: | 2018-09-26 |
| 公開(公告)號: | CN109168024B | 公開(公告)日: | 2022-05-27 |
| 發(fā)明(設(shè)計)人: | 韋享忠 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | H04N21/234 | 分類號: | H04N21/234;H04N21/233;H04N21/44;H04N21/439 |
| 代理公司: | 深圳中一專利商標(biāo)事務(wù)所 44237 | 代理人: | 官建紅 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 目標(biāo) 信息 識別 方法 設(shè)備 | ||
1.一種目標(biāo)信息的識別方法,其特征在于,包括:
若接收到待識別的視頻文件,則對所述視頻文件進(jìn)行解析,得到所述視頻文件的圖像軌道數(shù)據(jù)以及音頻軌道數(shù)據(jù);
提取所述圖像軌道數(shù)據(jù)中每一視頻圖像幀的圖像特征值;
基于所述圖像特征值檢測各個所述視頻圖像幀是否包含目標(biāo)信息,并標(biāo)記包含所述目標(biāo)信息的所述視頻圖像幀;
對所述音頻軌道數(shù)據(jù)進(jìn)行語音識別,確定所述音頻軌道數(shù)據(jù)對應(yīng)的臺詞文本;
若所述臺詞文本包含所述目標(biāo)信息關(guān)聯(lián)的特征關(guān)鍵詞,則在所述音頻軌道數(shù)據(jù)中標(biāo)記所述特征關(guān)鍵詞的音頻段落;
基于標(biāo)記的所述視頻圖像幀以及所述音頻段落,生成所述視頻文件的目標(biāo)信息記錄;
所述對所述音頻軌道數(shù)據(jù)進(jìn)行語音識別,確定所述音頻軌道數(shù)據(jù)對應(yīng)的臺詞文本,包括:
對所述音頻軌道數(shù)據(jù)進(jìn)行傅里葉變換,生成所述音頻軌道數(shù)據(jù)的頻域數(shù)據(jù);
根據(jù)所述頻域數(shù)據(jù)以及人體可發(fā)聲頻段范圍,將所述頻域數(shù)據(jù)劃分為環(huán)境音頻段數(shù)據(jù)以及人聲頻段數(shù)據(jù);
基于所述環(huán)境音頻段數(shù)據(jù),確定所述視頻文件的拍攝場景信息;
對所述人聲頻段數(shù)據(jù)進(jìn)行逆傅里葉變換,得到人聲軌道數(shù)據(jù),并對所述人聲軌道數(shù)據(jù)進(jìn)行語音識別,確定對話文本;
根據(jù)所述拍攝場景信息以及所述對話文本,生成所述臺詞文本。
2.根據(jù)權(quán)利要求1所述的識別方法,其特征在于,所述提取所述圖像軌道數(shù)據(jù)中每一視頻圖像幀的圖像特征值,包括:
對所述視頻圖像幀進(jìn)行輪廓識別處理,獲取所述視頻圖像幀內(nèi)拍攝主體的輪廓信息,并根據(jù)所述輪廓信息從所述視頻圖像幀中截取各個拍攝主體的區(qū)域圖像;
通過預(yù)設(shè)的視覺組神經(jīng)網(wǎng)絡(luò)的五層池化層對所述拍攝主體的區(qū)域圖像進(jìn)行降維,得到該拍攝主體的視覺特征向量;其中,所述五層池化層具體為:
V1(Amn)=mp1(3,64,Amn);
V2(Amn)=mp2(3,128,V1(Amn));
V3(Amn)=mp3(3,256,V2(Amn));
V4(Amn)=mp4(3,512,V2(Amn));
V5(Amn)=mp5(1,1,V4(Amn));
其中,所述Amn為拍攝主體的區(qū)域圖像;所述V1(Amn)、V2(Amn)、V3(Amn)以及V4(Amn)分別為第1到第4層池化層降維后的輸出向量;所述V5(Amn)為所述視覺特征向量;所述m為所述拍攝主體的區(qū)域圖像的行數(shù);所述n為在所述拍攝主體的區(qū)域圖像的列數(shù);
將各個所述視覺特征向量導(dǎo)入所述視覺組神經(jīng)網(wǎng)絡(luò)的全連接層,輸出所述視頻圖像幀的所述圖像特征值。
3.根據(jù)權(quán)利要求1-2任一項所述的識別方法,其特征在于,在所述基于標(biāo)記的所述視頻圖像幀以及所述音頻段落,生成所述視頻文件的目標(biāo)信息記錄之后,還包括:
對標(biāo)記的所述視頻圖像幀進(jìn)行圖像模糊處理,生成模糊處理后的視頻圖像幀;
對所述音頻段落進(jìn)行消音處理,生成消音后的音頻段落;
根據(jù)所述模糊處理后的視頻圖像幀以及所述消音后的音頻段落修改所述視頻文件,并發(fā)布修改后的所述視頻文件。
4.根據(jù)權(quán)利要求1-2任一項所述的識別方法,其特征在于,所述基于所述圖像特征值檢測各個所述視頻圖像幀是否包含目標(biāo)信息,包括:
基于拍攝對象索引表,確定所述圖像特征值對應(yīng)的拍攝對象;
檢測所述拍攝對象是否在所述目標(biāo)信息關(guān)聯(lián)的特征對象列表。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811123345.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機(jī)頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件
- 目標(biāo)檢測裝置、學(xué)習(xí)裝置、目標(biāo)檢測系統(tǒng)及目標(biāo)檢測方法
- 目標(biāo)監(jiān)測方法、目標(biāo)監(jiān)測裝置以及目標(biāo)監(jiān)測程序
- 目標(biāo)監(jiān)控系統(tǒng)及目標(biāo)監(jiān)控方法
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤設(shè)備
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤裝置
- 目標(biāo)檢測方法和目標(biāo)檢測裝置
- 目標(biāo)跟蹤方法、目標(biāo)跟蹤裝置、目標(biāo)跟蹤設(shè)備
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)跟蹤系統(tǒng)及目標(biāo)跟蹤方法
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





