[發(fā)明專利]一種多媒體內(nèi)容字幕生成方法、設(shè)備以及存儲介質(zhì)在審

申請?zhí)枺?/td>	202011634984.0	申請日：	2020-12-31
公開（公告）號：	CN112929758A	公開（公告）日：	2021-06-08
發(fā)明（設(shè)計）人：	鄧嘉俊;羅益峰	申請（專利權(quán)）人：	廣州朗國電子科技有限公司
主分類號：	H04N21/488	分類號：	H04N21/488;H04N21/4402;H04N21/435;H04N21/43;H04N21/8547;G10L15/26;G10L25/87
代理公司：	廣州市越秀區(qū)哲力專利商標(biāo)事務(wù)所(普通合伙) 44288	代理人：	楊莉莎
地址：	510700 廣東省廣州市黃埔區(qū)***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種多媒體內(nèi)容字幕生成方法設(shè)備以及存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種多媒體內(nèi)容字幕生成方法，其特征在于，所述多媒體內(nèi)容字幕生成方法包括以下步驟：

步驟S10：在可視化編輯器調(diào)整配置元素以制作出組合多媒體播放內(nèi)容，其內(nèi)容至少包括字幕生成服務(wù)、音頻流采集服務(wù)、文字識別服務(wù)；

步驟S20：獲取字幕生成的觸發(fā)指令，調(diào)用字幕生成服務(wù)；

步驟S30：調(diào)用音頻流采集服務(wù)，以采集并傳入音頻流至文字識別服務(wù)；

步驟S40：文字識別服務(wù)將音頻流中音頻信息轉(zhuǎn)化為字幕文件并將之返回字幕生成服務(wù)；

步驟S50：字幕生成服務(wù)將字幕文件轉(zhuǎn)化為字幕元素返回可視化編輯器生成字幕。

2.如權(quán)利要求1所述的多媒體內(nèi)容字幕生成方法，其特征在于，所述多媒體內(nèi)容字幕生成方法還包括：

步驟S60：接收多媒體用戶制作者的字幕屬性設(shè)置指令，根據(jù)字幕屬性設(shè)置指令設(shè)置字幕樣式并調(diào)整字幕字符。

3.如權(quán)利要求2所述的多媒體內(nèi)容字幕生成方法，其特征在于，所述多媒體內(nèi)容字幕生成方法還包括：

步驟S70：接收保存指令將所述組合多媒體播放內(nèi)容保存到組合做媒體內(nèi)容庫；

步驟S80：將所述組合多媒體播放內(nèi)容發(fā)送至軟件以使軟件播放所述組合多媒體播放內(nèi)容。

4.如權(quán)利要求1所述的多媒體內(nèi)容字幕生成方法，其特征在于，所述調(diào)用音頻流采集服務(wù)，以采集并傳入音頻流至文字識別服務(wù)的步驟，具體包括：

步驟S31：字幕生成服務(wù)接收音頻采集服務(wù)發(fā)送的音頻流；

步驟S32：字幕生成服務(wù)將所述音頻流發(fā)送給文字識別服務(wù)。

5.如權(quán)利要求1所述的多媒體內(nèi)容字幕生成方法，其特征在于，所述文字識別服務(wù)將音頻流中音頻信息轉(zhuǎn)化為字幕文件并將之返回字幕生成服務(wù)的步驟，具體包括：

步驟S41：對所述音頻流進行預(yù)處理；

步驟S42：對經(jīng)過預(yù)處理的音頻流進行端點檢測以生成有效音頻流；其中，所述有效音頻流包含有連續(xù)語音的音頻；

步驟S43：對有效音頻流進行識別以生成與所述有效音頻流對應(yīng)的詞條；

步驟S44：將所述詞條和與所述詞條對應(yīng)的有效音頻流出現(xiàn)的時間信息組合形成字幕文件。

6.如權(quán)利要求5所述的多媒體內(nèi)容字幕生成方法，其特征在于，對所述音頻流進行預(yù)處理的步驟，具體包括：

步驟S411：對所述音頻流進行預(yù)濾波處理以獲得對高頻部分進行提升的音頻流；

步驟S412：對進行預(yù)濾波處理后的音頻流在進行預(yù)加重處理以獲得具有高頻分辨率的預(yù)濾波處理后的音頻流；

步驟S413：對所述具有高頻分辨率的預(yù)濾波處理后的音頻流進行采樣生成模擬量值；

步驟S414：對所述模擬量值進行量化，分為多個區(qū)段，并根據(jù)所述多個區(qū)段對每一模擬量值進行歸類，且生成量化值；

步驟S415：對所述模擬量值進行加窗。

7.如權(quán)利要求5所述的多媒體內(nèi)容字幕生成方法，其特征在于，所述對經(jīng)過預(yù)處理的音頻流進行端點檢測以生成有效音頻流的步驟，具體包括：

步驟S421：根據(jù)預(yù)設(shè)閾值與所述模擬量值的對比，找出最開始大于預(yù)設(shè)閾值的模擬量值并確定為端點；

步驟S422：通過若干個端點確定音頻流的起始點和結(jié)束點，形成有效的音頻流。

8.如權(quán)利要求5所述的多媒體內(nèi)容字幕生成方法，其特征在于，所述對有效音頻流進行識別以生成與所述有效音頻流對應(yīng)的詞條的步驟，具體包括：

步驟S431：對有效音頻流進行特征提取生成提取結(jié)果；其中，所述提取結(jié)果包括特征參數(shù)、基音檢測以及共振峰；

步驟S432：對有效音頻流進行訓(xùn)練以形成測試模板；

步驟S433：對所述提取結(jié)果進行識別，選取匹配分數(shù)最高的參考模板詞條作為識別結(jié)果。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州朗國電子科技有限公司，未經(jīng)廣州朗國電子科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011634984.0/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04N 圖像通信，如電視
H04N21-00 可選的內(nèi)容分發(fā)，例如交互式電視，VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器，例如：VOD服務(wù)器；其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備，如STB[機頂盒]；相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理；內(nèi)容本身
H04N21-81 ..其單媒體部件

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】