[發(fā)明專利]講解同步的視頻高光處理方法、裝置、計算機設(shè)備及介質(zhì)有效

申請?zhí)枺?/td>	202011591754.0	申請日：	2020-12-29
公開（公告）號：	CN112289321B	公開（公告）日：	2021-03-30
發(fā)明（設(shè)計）人：	許丹	申請（專利權(quán)）人：	平安科技（深圳）有限公司
主分類號：	G10L15/26	分類號：	G10L15/26
代理公司：	深圳市賽恩倍吉知識產(chǎn)權(quán)代理有限公司 44334	代理人：	楊毅玲;劉麗華
地址：	518000 廣東省深圳市福田區(qū)福***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	講解同步視頻處理方法裝置計算機設(shè)備介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種講解同步的視頻高光處理方法，其特征在于，所述方法包括：

根據(jù)教學(xué)視頻的屬性提取教學(xué)視頻中的圖片幀序列及語音文本序列；

根據(jù)圖片幀中的預(yù)設(shè)標(biāo)記識別所述圖片幀序列中的多個關(guān)鍵圖片幀，并根據(jù)所述多個關(guān)鍵圖片幀對所述語音文本序列進(jìn)行切分，得到多個語音文本片段；

識別每個關(guān)鍵圖片幀中每條圖片文本，并確定每條圖片文本在對應(yīng)的關(guān)鍵圖片幀出現(xiàn)的位置；

根據(jù)每個關(guān)鍵圖片幀中每條圖片文本，從對應(yīng)的語音文本片段中匹配出目標(biāo)語音文本；

根據(jù)每個關(guān)鍵圖片幀中每條圖片文本出現(xiàn)的位置及對應(yīng)的目標(biāo)語音文本的時間生成高光位置時間序列表；

基于所述高光位置時間序列表對所述教學(xué)視頻中的文件進(jìn)行高光渲染。

2.如權(quán)利要求1所述的講解同步的視頻高光處理方法，其特征在于，所述根據(jù)教學(xué)視頻的屬性提取教學(xué)視頻中的圖片幀序列及語音文本序列包括：

提取所述教學(xué)視頻中的視頻數(shù)據(jù)及音頻數(shù)據(jù)；

獲取所述教學(xué)視頻的總時長及所述教學(xué)視頻中的文件的總頁數(shù)；

根據(jù)所述總時長及所述總頁數(shù)計算采樣幀率；

采用所述采樣幀率對所述視頻數(shù)據(jù)進(jìn)行采樣，得到圖片幀序列；

對所述音頻數(shù)據(jù)進(jìn)行語音識別，得到語音文本序列。

3.如權(quán)利要求1所述的講解同步的視頻高光處理方法，其特征在于，所述根據(jù)圖片幀中的預(yù)設(shè)標(biāo)記識別所述圖片幀序列中的多個關(guān)鍵圖片幀包括：

將所述圖片幀序列中的每前后兩個圖片幀進(jìn)行組合，得到多個圖片幀對；

計算每個圖片幀對的相似度；

計算每個圖片幀對中的預(yù)設(shè)標(biāo)記的數(shù)量，并根據(jù)所述數(shù)量更新預(yù)設(shè)相似度閾值，得到目標(biāo)相似度閾值；

從所述多個圖片幀對中獲取相似度小于對應(yīng)的目標(biāo)相似度閾值的多個目標(biāo)圖片幀對；

將每個目標(biāo)圖片幀對中的后一個目標(biāo)圖片幀確定為關(guān)鍵圖片幀，得到多個關(guān)鍵圖片幀。

4.如權(quán)利要求1所述的講解同步的視頻高光處理方法，其特征在于，所述根據(jù)所述多個關(guān)鍵圖片幀對所述語音文本序列進(jìn)行切分，得到多個語音文本片段包括：

確定每個關(guān)鍵圖片幀在所述教學(xué)視頻中的第一關(guān)鍵時間點；

匹配所述語音文本序列中與每個第一關(guān)鍵時間點對應(yīng)的第二關(guān)鍵時間點；

以每個第二關(guān)鍵時間點為文本切分點，對所述語音文本序列進(jìn)行切分，得到多個語音文本片段。

5.如權(quán)利要求1所述的講解同步的視頻高光處理方法，其特征在于，所述根據(jù)每個關(guān)鍵圖片幀中每條圖片文本，從對應(yīng)的語音文本片段中匹配出目標(biāo)語音文本包括：

提取每個關(guān)鍵圖片幀中每條圖片文本的第一詞向量；

提取每個語音文本片段中每條語音文本的第二詞向量；

計算每個關(guān)鍵圖片幀中的每個第一詞向量與對應(yīng)的語音文本片段中的每個第二詞向量之間的相似度；

將每個語音文本片段中相似度最大的第二詞向量對應(yīng)的語音文本確定為所述語音文本片段對應(yīng)的關(guān)鍵圖片幀中對應(yīng)的圖片文本的目標(biāo)語音文本。

6.如權(quán)利要求1至5中任意一項所述的講解同步的視頻高光處理方法，其特征在于，所述基于所述高光位置時間序列表對所述教學(xué)視頻中的文件進(jìn)行高光渲染包括：

對于所述高光位置時間序列表中的上一時間點，在所述教學(xué)視頻中與所述上一時間點對應(yīng)的位置處添加第一高光圖層；

維持所述第一高光圖層不變，直到所述高光位置時間序列表中的下一時間點；

在所述教學(xué)視頻中與所述下一時間點對應(yīng)的位置處添加第二高光圖層。

7.如權(quán)利要求1至5中任意一項所述的講解同步的視頻高光處理方法，其特征在于，所述方法還包括：

接收用戶的輸入文本；

計算所述輸入文本與所述語音文本片段中每條語音文本之間的相似度；

確定與相似度最大的語音文本對應(yīng)的目標(biāo)圖片文本；

根據(jù)所述高光位置時間序列表跳轉(zhuǎn)到所述教學(xué)視頻中所述目標(biāo)圖片文本所在的目標(biāo)關(guān)鍵圖片幀，并在所述目標(biāo)關(guān)鍵圖片幀中高光顯示所述目標(biāo)圖片文本。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技（深圳）有限公司，未經(jīng)平安科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011591754.0/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種臥式分離計量橇及其分離計量方法
下一篇：一種金屬門加工廠污水處理設(shè)備

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】