[發(fā)明專利]一種多媒體內(nèi)容字幕生成方法、設(shè)備以及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011634984.0 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112929758A | 公開(公告)日: | 2021-06-08 |
| 發(fā)明(設(shè)計)人: | 鄧嘉俊;羅益峰 | 申請(專利權(quán))人: | 廣州朗國電子科技有限公司 |
| 主分類號: | H04N21/488 | 分類號: | H04N21/488;H04N21/4402;H04N21/435;H04N21/43;H04N21/8547;G10L15/26;G10L25/87 |
| 代理公司: | 廣州市越秀區(qū)哲力專利商標(biāo)事務(wù)所(普通合伙) 44288 | 代理人: | 楊莉莎 |
| 地址: | 510700 廣東省廣州市黃埔區(qū)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 多媒體 內(nèi)容 字幕 生成 方法 設(shè)備 以及 存儲 介質(zhì) | ||
1.一種多媒體內(nèi)容字幕生成方法,其特征在于,所述多媒體內(nèi)容字幕生成方法包括以下步驟:
步驟S10:在可視化編輯器調(diào)整配置元素以制作出組合多媒體播放內(nèi)容,其內(nèi)容至少包括字幕生成服務(wù)、音頻流采集服務(wù)、文字識別服務(wù);
步驟S20:獲取字幕生成的觸發(fā)指令,調(diào)用字幕生成服務(wù);
步驟S30:調(diào)用音頻流采集服務(wù),以采集并傳入音頻流至文字識別服務(wù);
步驟S40:文字識別服務(wù)將音頻流中音頻信息轉(zhuǎn)化為字幕文件并將之返回字幕生成服務(wù);
步驟S50:字幕生成服務(wù)將字幕文件轉(zhuǎn)化為字幕元素返回可視化編輯器生成字幕。
2.如權(quán)利要求1所述的多媒體內(nèi)容字幕生成方法,其特征在于,所述多媒體內(nèi)容字幕生成方法還包括:
步驟S60:接收多媒體用戶制作者的字幕屬性設(shè)置指令,根據(jù)字幕屬性設(shè)置指令設(shè)置字幕樣式并調(diào)整字幕字符。
3.如權(quán)利要求2所述的多媒體內(nèi)容字幕生成方法,其特征在于,所述多媒體內(nèi)容字幕生成方法還包括:
步驟S70:接收保存指令將所述組合多媒體播放內(nèi)容保存到組合做媒體內(nèi)容庫;
步驟S80:將所述組合多媒體播放內(nèi)容發(fā)送至軟件以使軟件播放所述組合多媒體播放內(nèi)容。
4.如權(quán)利要求1所述的多媒體內(nèi)容字幕生成方法,其特征在于,所述調(diào)用音頻流采集服務(wù),以采集并傳入音頻流至文字識別服務(wù)的步驟,具體包括:
步驟S31:字幕生成服務(wù)接收音頻采集服務(wù)發(fā)送的音頻流;
步驟S32:字幕生成服務(wù)將所述音頻流發(fā)送給文字識別服務(wù)。
5.如權(quán)利要求1所述的多媒體內(nèi)容字幕生成方法,其特征在于,所述文字識別服務(wù)將音頻流中音頻信息轉(zhuǎn)化為字幕文件并將之返回字幕生成服務(wù)的步驟,具體包括:
步驟S41:對所述音頻流進行預(yù)處理;
步驟S42:對經(jīng)過預(yù)處理的音頻流進行端點檢測以生成有效音頻流;其中,所述有效音頻流包含有連續(xù)語音的音頻;
步驟S43:對有效音頻流進行識別以生成與所述有效音頻流對應(yīng)的詞條;
步驟S44:將所述詞條和與所述詞條對應(yīng)的有效音頻流出現(xiàn)的時間信息組合形成字幕文件。
6.如權(quán)利要求5所述的多媒體內(nèi)容字幕生成方法,其特征在于,對所述音頻流進行預(yù)處理的步驟,具體包括:
步驟S411:對所述音頻流進行預(yù)濾波處理以獲得對高頻部分進行提升的音頻流;
步驟S412:對進行預(yù)濾波處理后的音頻流在進行預(yù)加重處理以獲得具有高頻分辨率的預(yù)濾波處理后的音頻流;
步驟S413:對所述具有高頻分辨率的預(yù)濾波處理后的音頻流進行采樣生成模擬量值;
步驟S414:對所述模擬量值進行量化,分為多個區(qū)段,并根據(jù)所述多個區(qū)段對每一模擬量值進行歸類,且生成量化值;
步驟S415:對所述模擬量值進行加窗。
7.如權(quán)利要求5所述的多媒體內(nèi)容字幕生成方法,其特征在于,所述對經(jīng)過預(yù)處理的音頻流進行端點檢測以生成有效音頻流的步驟,具體包括:
步驟S421:根據(jù)預(yù)設(shè)閾值與所述模擬量值的對比,找出最開始大于預(yù)設(shè)閾值的模擬量值并確定為端點;
步驟S422:通過若干個端點確定音頻流的起始點和結(jié)束點,形成有效的音頻流。
8.如權(quán)利要求5所述的多媒體內(nèi)容字幕生成方法,其特征在于,所述對有效音頻流進行識別以生成與所述有效音頻流對應(yīng)的詞條的步驟,具體包括:
步驟S431:對有效音頻流進行特征提取生成提取結(jié)果;其中,所述提取結(jié)果包括特征參數(shù)、基音檢測以及共振峰;
步驟S432:對有效音頻流進行訓(xùn)練以形成測試模板;
步驟S433:對所述提取結(jié)果進行識別,選取匹配分數(shù)最高的參考模板詞條作為識別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州朗國電子科技有限公司,未經(jīng)廣州朗國電子科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011634984.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:壓縮餅干的制備方法及壓縮餅干
- 下一篇:一種加熱卷煙煙草基段及其制作方法
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





