[發明專利]基于口型特征的字幕調整方法以及裝置在審
| 申請號: | 202110267541.0 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN113033357A | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 盧啟偉;劉善果;劉勝強 | 申請(專利權)人: | 深圳市鷹碩技術有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06T7/62;H04N21/488 |
| 代理公司: | 深圳余梅專利代理事務所(特殊普通合伙) 44519 | 代理人: | 陳余才 |
| 地址: | 518000 廣東省深圳市寶安區新安*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 口型 特征 字幕 調整 方法 以及 裝置 | ||
本公開是關于一種基于口型特征的字幕調整方法、裝置、電子設備以及存儲介質。其中,該方法包括:基于圖像識別述視頻中發言人的唇部定位;選取唇部的預設唇部區域,生成基于時間變化的預設唇部區域唇部所占面積的時序曲線;基于預設擬合算法生成擬合曲線;基于所述字幕信息及所述字幕信息對應的標準口型信息生成基于字幕展示時間變化的預設唇部區域唇部所占面積的標準曲線,將所述標準曲線和擬合曲線對比,并根據對比結果調整所述字幕信息的展示時間。本公開通過基于唇部特征區域唇部占比面積統計的方式,開創性的實現了音頻字幕與圖像畫面的時間匹配,極大的提高了用戶體驗。
技術領域
本公開涉及互聯網領域,具體而言,涉及一種基于口型特征的字幕調整方法、裝置、電子設備以及計算機可讀存儲介質。
背景技術
字幕(subtitles of motion picture)是指以文字形式顯示電視、電影、舞臺作品中的對話等非影像內容,也泛指影視作品后期加工的文字。在電影銀幕或電視機熒光屏下方出現的解說文字以及種種文字,如影片的片名、演職員表、唱詞、對白、說明詞以有人物介紹、地名和年代等都稱為字幕。影視作品的對話字幕,一般出現在屏幕下方,而戲劇作品的字幕,則可能顯示于舞臺兩旁或上方。
視頻字幕是為了理解視頻內容而產生的輔助工具,隨著互聯網的發展,視頻字幕的配備越來越重要。視頻字幕自動生成包括提取課程視頻的音頻流、音頻流斷句切分、語音識別、格式文本文件生成等技術原理。中文語音識別過程包括特征參數提取、聲學模型、語言模型和模式匹配四個部分。現有技術中,字幕識別運用到的相關技術包括MFCC、HMM和N-gram等技術及其相關算法進行中文語音識別,MFCC特征參數提取方法、HMM聲學模型及其相關算法以及N-gram語言模型及平滑處理方法。針對中文發音規則,以聲母和韻母為音素,結合卡內基梅隆大學開發的sphinx語音識別系統,進行聲學建模、語言建模及字典構建。通過建立語料庫、研究sphinx語音識別系統及設計開發字幕生成系統三個步驟,實現了字幕自動生成。隨著無線網絡、短視頻的快速發展,基于用戶語音的字幕自動生成技術越來越成熟,極大的方便的視頻錄制者,也提高了視頻觀眾的觀看體驗。
然而,由于音頻直接轉化的字幕是與音頻的時間戳對應的,但是由于現有視頻錄制過程中,由于音頻采集設備與音像同步算法不同步等問題,常會出現通過音頻直接轉化的字幕與實際的視頻圖像畫面不匹配的情況,特別是一些在線教育等單一主講人的視頻中,字幕時間失之毫厘謬以千里,對觀眾的觀看、教學體驗會有很大的影響。
因此,需要一種或多種方法解決上述問題。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開的目的在于提供一種基于口型特征的字幕調整方法、裝置、電子設備以及計算機可讀存儲介質,進而至少在一定程度上克服由于相關技術的限制和缺陷而導致的一個或者多個問題。
根據本公開的一個方面,提供一種基于口型特征的字幕調整方法,包括:
基于對包含字幕信息的視頻進行圖像識別,完成對所述視頻中發言人的唇部定位;
選取唇部的預設唇部區域,對所述預設唇部區域中唇部所占面積進行統計并與時間戳對應,生成基于時間變化的預設唇部區域唇部所占面積的時序曲線;
基于預設擬合算法對所述基于時間變化的預設唇部區域唇部所占面積的時序曲線進行擬合,生成擬合曲線;
基于所述字幕信息及所述字幕信息對應的標準口型信息生成基于字幕展示時間變化的預設唇部區域唇部所占面積的標準曲線,將所述標準曲線和擬合曲線對比,并根據對比結果調整所述字幕信息的展示時間。
在本公開的一種示例性實施例中,所述基于對包含字幕信息的視頻進行圖像識別,完成對所述視頻中發言人的唇部定位還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市鷹碩技術有限公司,未經深圳市鷹碩技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110267541.0/2.html,轉載請聲明來源鉆瓜專利網。





