[發(fā)明專利]基于口型特征的字幕調(diào)整方法以及裝置在審
| 申請?zhí)枺?/td> | 202110267541.0 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN113033357A | 公開(公告)日: | 2021-06-25 |
| 發(fā)明(設(shè)計(jì))人: | 盧啟偉;劉善果;劉勝強(qiáng) | 申請(專利權(quán))人: | 深圳市鷹碩技術(shù)有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06T7/62;H04N21/488 |
| 代理公司: | 深圳余梅專利代理事務(wù)所(特殊普通合伙) 44519 | 代理人: | 陳余才 |
| 地址: | 518000 廣東省深圳市寶安區(qū)新安*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 口型 特征 字幕 調(diào)整 方法 以及 裝置 | ||
1.一種基于口型特征的字幕調(diào)整方法,其特征在于,所述方法包括:
基于對包含字幕信息的視頻進(jìn)行圖像識(shí)別,完成對所述視頻中發(fā)言人的唇部定位;
選取唇部的預(yù)設(shè)唇部區(qū)域,對所述預(yù)設(shè)唇部區(qū)域中唇部所占面積進(jìn)行統(tǒng)計(jì)并與時(shí)間戳對應(yīng),生成基于時(shí)間變化的預(yù)設(shè)唇部區(qū)域唇部所占面積的時(shí)序曲線;
基于預(yù)設(shè)擬合算法對所述基于時(shí)間變化的預(yù)設(shè)唇部區(qū)域唇部所占面積的時(shí)序曲線進(jìn)行擬合,生成擬合曲線;
基于所述字幕信息及所述字幕信息對應(yīng)的標(biāo)準(zhǔn)口型信息生成基于字幕展示時(shí)間變化的預(yù)設(shè)唇部區(qū)域唇部所占面積的標(biāo)準(zhǔn)曲線,將所述標(biāo)準(zhǔn)曲線和擬合曲線對比,并根據(jù)對比結(jié)果調(diào)整所述字幕信息的展示時(shí)間。
2.如權(quán)利要求1所述的方法,其特征在于,所述基于對包含字幕信息的視頻進(jìn)行圖像識(shí)別,完成對所述視頻中發(fā)言人的唇部定位還包括:
基于對包含字幕信息的視頻進(jìn)行圖像識(shí)別,完成對所述視頻中發(fā)言人的面部定位;
基于面部特征值查找唇部區(qū)域,完成對所述視頻中發(fā)言人的唇部定位。
3.如權(quán)利要求1所述的方法,其特征在于,所述方法預(yù)設(shè)唇部區(qū)域?yàn)椋?/p>
唇部活躍區(qū)域中預(yù)設(shè)比例長度和寬度的矩形區(qū)域。
4.如權(quán)利要求1所述的方法,其特征在于,所述選取唇部的預(yù)設(shè)唇部區(qū)域,對所述預(yù)設(shè)唇部區(qū)域中唇部所占面積進(jìn)行統(tǒng)計(jì)并與時(shí)間戳對應(yīng),生成基于時(shí)間變化的預(yù)設(shè)唇部區(qū)域唇部所占面積的時(shí)序曲線還包括:
所述選取唇部的預(yù)設(shè)唇部區(qū)域,對視頻全部播放時(shí)間內(nèi)所述預(yù)設(shè)唇部區(qū)域中唇部所占面積進(jìn)行統(tǒng)計(jì)并與時(shí)間戳對應(yīng),生成基于時(shí)間變化的預(yù)設(shè)唇部區(qū)域唇部所占面積的全時(shí)時(shí)序曲線;
所述選取唇部的預(yù)設(shè)唇部區(qū)域,對視頻部分播放時(shí)間內(nèi)對所述預(yù)設(shè)唇部區(qū)域中唇部所占面積進(jìn)行統(tǒng)計(jì)并與時(shí)間戳對應(yīng),生成基于時(shí)間變化的預(yù)設(shè)唇部區(qū)域唇部所占面積的分時(shí)時(shí)序曲線。
5.如權(quán)利要求4所述的方法,其特征在于,所述方法還包括:
若在所述包含字幕信息的視頻內(nèi)超過預(yù)設(shè)時(shí)長未檢測到發(fā)言人或未實(shí)現(xiàn)發(fā)言人面部/唇部定位,則對所述時(shí)序曲線進(jìn)行分段,生成分時(shí)時(shí)序曲線。
6.如權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)擬合算法為:
f(t)=c1+c2g(a1,a2,a3,a4,a5);
其中,f(t)為時(shí)序曲線,g(a1,a2,a3,a4,a5)為高斯函數(shù),a1為決定最大值和最小值所在整條時(shí)序曲線的位置,c1和c2為控制整條曲線的基準(zhǔn)及振幅,a4、a5和a2、a3分別為控制曲線左、右部分的寬度及斜率;
其中,F(xiàn)(t)為擬合曲線,[tL,tR]表示時(shí)序曲線中待擬合部分的取值區(qū)間范圍,fL(t)、fC(t)和fR(t)分別為該區(qū)間[tL,tR]內(nèi)左邊最小值、中間最大值及右邊最小值所對應(yīng)的局部擬合函數(shù),α(t)和β(t)分別為介于0到1之間的剪切系數(shù)。
7.如權(quán)利要求1所述的方法,其特征在于,所述基于預(yù)設(shè)擬合算法對所述基于時(shí)間變化的預(yù)設(shè)唇部區(qū)域唇部所占面積的時(shí)序曲線進(jìn)行擬合前,還包括對所述時(shí)序曲線進(jìn)行濾波處理:
其中,Sj+1分別濾波后及濾波前時(shí)序曲線中預(yù)設(shè)唇部區(qū)域中唇部所占面積,Ci為第i個(gè)唇部所占面積濾波過程系數(shù),2m為濾波窗口寬度,N為濾波去長度,等于滑動(dòng)數(shù)組的寬度2m+1。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市鷹碩技術(shù)有限公司,未經(jīng)深圳市鷹碩技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110267541.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





