[發明專利]中文在線音視頻的字幕生成方法有效
| 申請號: | 201811107225.1 | 申請日: | 2018-09-21 |
| 公開(公告)號: | CN109257547B | 公開(公告)日: | 2021-04-06 |
| 發明(設計)人: | 薛景;陳康揚;王宇 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | H04N5/278 | 分類號: | H04N5/278;H04N21/439;G10L21/0208;G10L15/22;G10L15/04 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 姚姣陽 |
| 地址: | 210033 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 在線 視頻 字幕 生成 方法 | ||
1.一種中文在線音視頻的字幕生成方法,其特征在于,包括如下步驟:
S1、音頻數據提取步驟,服務器接收用戶上傳的音視頻文件、并從所接收的音視頻文件中提取出音頻數據,將音頻數據轉化為標準格式;
S2、降噪步驟,對已轉化為標準格式的音頻數據進行降噪處理,得到降噪完成的音頻文件;
S3、數據切分步驟,對音頻文件進行端點切分,得到音頻樣本;
S4、片段識別步驟,對所得到的音頻樣本進行進一步切分,得到一系列語音片段,再對語音片段進行識別,整理得到全部音頻數據的識別結果;
S5、字幕生成步驟,整合分析出文本及對應的時間軸,得到字幕文件,按照生成的字幕文件將字幕與音頻數據進行匹配;
S1所述音頻數據提取步驟,具體包括,用戶通過中文在線課程視頻網站上傳一段音視頻文件,服務器接收到音視頻文件、提取出其中的音頻數據,服務器從音頻數據中讀取參數信息,并將音頻數據轉化為標準格式;所述參數信息至少包括聲道數、編碼方式及采樣率;
S2所述降噪步驟,具體包括,選取音頻數據中前0.5秒的聲音作為噪聲樣本,通過漢寧窗對噪聲樣本進行分幀并求出每一幀對應的強度值,以此作為噪聲門閾值,再通過漢寧窗對音頻數據進行分幀并求出每一幀對應的強度值,獲得音頻信號強度值,隨后對音頻信號強度值與噪聲門閾值進行逐幀比較,保留音頻信號強度值大于噪聲門閾值的音頻數據,最終得到降噪完成的音頻文件;
S3所述數據切分步驟,具體包括,采用雙門限語音端點檢測技術,對已完成降噪的音頻文件進行端點切分,切分出可用的音頻樣本,將未滿足門限的部分音頻文件當做靜音或噪音、不做處理;
S3所述數據切分步驟中,所述雙門限語音端點檢測技術中的兩個門限為包括過零率及短時能量;
S4所述片段識別步驟,具體包括,按照默認的最小靜音長度和最短有效聲音兩項參數對S3中選擇出的音頻樣本進行進一步切分,得到一系列的語音片段,然后將得到語音片段通過調用百度api進行語音識別,整理得到全部音頻數據的識別結果,對識別結果采用Hanlp、Boson句法依存分布來檢測符合依存語法關系的情況、判斷識別效果;
S4所述片段識別步驟中,依存語法關系包括以下條件:一個句子中只有一個成分是獨立的;句子的其他成分都從屬于某一成分;句子中的任何一個成分都不能依存于兩個或兩個以上的成分;若句子中的成分A直接從屬成分B,而成分C在句子中位于A和B之間,那么,成分C或者從屬于A,或者從屬于B,或者從屬于A和B之間的某一成分;句子中心成分左右兩邊的其他成分相互不發生關系;
S4所述片段識別步驟中,若識別結果不滿足預期,則將最小靜音長度及最短有效聲音提供給用戶進行參數調整,調整完畢后重新執行S4所述片段識別步驟;若識別結果滿足預期,則進入S5所述字幕生成步驟;
S5所述字幕生成步驟,具體包括,將各個語音片段對應的中文字幕,按照字幕的格式寫入srt文件,每個語音片段的時間戳對應一段中文字幕,然后利用腳本自動調用字幕添加軟件,將生成好的字幕文件按照時間添加進用戶上傳的音視頻文件當中,最終得到一個帶有字幕的中文課程視頻,返回給用戶以供下載。
2.根據權利要求1所述的中文在線音視頻的字幕生成方法,其特征在于:所述的標準格式為單聲道和16000幀率的WAV格式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811107225.1/1.html,轉載請聲明來源鉆瓜專利網。





