[發明專利]基于語音節奏進行自動滾動字幕的方法、系統及裝置有效
| 申請號: | 202110075327.5 | 申請日: | 2021-01-20 |
| 公開(公告)號: | CN112887779B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 殷明;周見光;周凱峰 | 申請(專利權)人: | 杭州小眾圈科技有限公司 |
| 主分類號: | H04N21/431 | 分類號: | H04N21/431;H04N21/485;H04N21/488;G10L15/02;G10L15/16;G10L15/22;G10L25/03;G10L25/30;G10L25/57 |
| 代理公司: | 杭州五洲普華專利代理事務所(特殊普通合伙) 33260 | 代理人: | 徐晶晶 |
| 地址: | 310000 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語音 節奏 進行 自動 滾動 字幕 方法 系統 裝置 | ||
本發明公開一種基于語音節奏進行自動滾動字幕的方法,包括以下步驟:獲取待滾動字幕的語音數據,當語音空白間隙時間超過預先設定值時,進行斷句處理;將斷句處理后的語音數據進行分幀提取特征處理,以使得每一幀都為固定長度,并將每一幀轉為特征向量;將特征向量輸入語音識別模型中,將斷句處理后的語音數據轉換為人聲語音特征符號;將人聲語音特征符號與預設的字幕文字提取的特征符號進行比對,若相似度高于閾值,則匹配成功;動態計算出平滑的滾動速度,并將對應字幕向上滾動。本發明能實現用戶自由控制字幕提詞的功能,在不增加人力資源同時,實現了字幕自動提詞,避免出現忘詞、錯詞等一系列狀況。
技術領域
本發明涉及字幕控制技術領域,尤其涉及一種基于語音節奏進行自動滾動字幕的方法、系統及裝置。
背景技術
隨著現在在線直播、直播教學、在線課堂、短視頻制作等新媒體的興起,越來越多的領域需要用到字幕提詞功能,并且后期要生成和語音同步的字幕文件,例如在教學、演講時,準備字幕可以避免出現忘詞、錯詞等一系列狀況。
目前市場上,字幕需要人工進行滾動,這就要求有額外人力資源,提高了生產所需的成本。故亟需一種能夠識別語音節奏并跟隨節奏自動滾動字幕的程序來解決這個問題。
發明內容
本發明針對現有技術中的缺點,提供了一種基于語音節奏進行自動滾動字幕的方法、系統及裝置。
為了解決上述技術問題,本發明通過下述技術方案得以解決:
一種基于語音節奏進行自動滾動字幕的方法,包括以下步驟:
獲取待滾動字幕的語音數據,當語音空白間隙時間超過預先設定值時,進行斷句處理;
將斷句處理后的語音數據進行分幀提取特征處理,以使得每一幀都為固定長度,并將每一幀轉為特征向量;
將特征向量輸入語音識別模型中,將斷句處理后的語音數據轉換為人聲語音特征符號;
將人聲語音特征符號與預設的字幕文字提取的特征符號進行比對,若相似度高于閾值,則匹配成功;
動態計算出平滑的滾動速度,并將對應字幕向上滾動。
作為一種可實施方式,所述待滾動字幕的語音數據為人聲。
作為一種可實施方式,還包括以下步驟:
若相似度不高于閾值,則匹配失敗,發出告警并重新獲取待滾動字幕的語音數據。
作為一種可實施方式,所述動態計算出平滑的滾動速度,具體為:
將當前斷句處理后的語音數據完成識別后,將對應語音數據的文字累積至隊列中,并將對應語音數據所用的時間累積至隊列的總時長中;
基于隊列的總時長與隊列的總字數得到隊列中最近的每字時間;
通過最近的每字時間及下一句語音數據的字數得到下一句語音數據的滾動時間;
基于滾動時間以及下一句語音數據所顯示的屏幕高度得到此句語音數據滾動完顯示屏幕高度所需的第二滾動速度;
在預設時間內,基于當前滾動速度與第二滾動速度得到顯示下一句語音數據的變化速度;
基于變化速度、預設時間及預設的滾動幀率,得到每幀的速度變化值,以及每幀的移動像素數;
通過當前滾動速度和每幀的速度變化值得到新的滾動速度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州小眾圈科技有限公司,未經杭州小眾圈科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110075327.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種工業管道用閥門調節更換組件及其使用方法
- 下一篇:一種線束智能檢測系統





