[發(fā)明專利]用于移動終端的字幕生成方法、裝置、設(shè)備以及存儲介質(zhì)有效

申請?zhí)枺?/td>	202011497650.3	申請日：	2020-12-17
公開（公告）號：	CN112653932B	公開（公告）日：	2023-09-26
發(fā)明（設(shè)計）人：	董曉飛	申請（專利權(quán)）人：	北京百度網(wǎng)訊科技有限公司
主分類號：	H04N21/488	分類號：	H04N21/488;H04N5/278;G10L15/26
代理公司：	北京英賽嘉華知識產(chǎn)權(quán)代理有限責(zé)任公司 11204	代理人：	王達(dá)佐;馬曉亞
地址：	100085 北京市***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	用于移動終端字幕生成方法裝置設(shè)備以及存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本公開公開了用于移動終端的字幕生成方法、裝置、設(shè)備以及存儲介質(zhì)，涉及人工智能領(lǐng)域，尤其涉及語音識別、自然語言處理技術(shù)領(lǐng)域，具體實(shí)現(xiàn)方案為：獲取基于音頻數(shù)據(jù)采集設(shè)備采集的輸入語音；采用語音識別模型，將輸入語音轉(zhuǎn)換為輸入文字；獲取配置于輸入視頻的時間軸；將輸入文字添加至用戶選擇的輸入視頻的時間軸片段，提供了一種在移動終端為視頻添加字幕的方法，相較于在個人計算機(jī)端使用專業(yè)軟件工具為視頻添加字幕，節(jié)省了學(xué)習(xí)成本，簡化了字幕添加流程。

技術(shù)領(lǐng)域

本公開涉及計算機(jī)技術(shù)領(lǐng)域，具體涉及語音識別、自然語言處理等人工智能技術(shù)領(lǐng)域，尤其涉及用于移動終端的字幕生成方法、裝置、設(shè)備以及存儲介質(zhì)。

背景技術(shù)

隨著移動互聯(lián)網(wǎng)的進(jìn)一步發(fā)展，在當(dāng)今內(nèi)容為王的大趨勢下，搭建和提供更多高質(zhì)量的內(nèi)容顯得尤為重要。而作為內(nèi)容生產(chǎn)的大戶，用戶內(nèi)容生態(tài)也如雨后春筍一般不斷涌現(xiàn)，其中視頻承載內(nèi)容體系要優(yōu)于圖文、音頻等。但專業(yè)的視頻剪輯、音頻處理等存在著學(xué)習(xí)成本高，個人用戶入門困難，花費(fèi)時間長等問題，這些問題會反向抑制用戶創(chuàng)作者的熱情和想法。尤其在移動互聯(lián)網(wǎng)時代，大部分的用戶操作設(shè)備僅僅是一部手機(jī)，不具備更多專業(yè)設(shè)備進(jìn)行后期處理。

發(fā)明內(nèi)容

本公開提供了用于移動終端的字幕生成方法、裝置、設(shè)備以及存儲介質(zhì)。

根據(jù)本公開的第一方面，提供了一種用于移動終端的字幕生成方法，包括：獲取基于音頻數(shù)據(jù)采集設(shè)備采集的輸入語音；采用語音識別模型，將輸入語音轉(zhuǎn)換為輸入文字；獲取配置于輸入視頻的時間軸；將輸入文字添加至用戶選擇的輸入視頻的時間軸片段。

根據(jù)本公開的第二方面，提供了一種用于移動終端的字幕生成裝置，包括：第一獲取模塊，被配置為獲取基于音頻數(shù)據(jù)采集設(shè)備采集的輸入語音；轉(zhuǎn)換模塊，被配置為采用語音識別模型，將輸入語音轉(zhuǎn)換為輸入文字；第二獲取模塊，被配置為獲取配置于輸入視頻的時間軸；添加模塊，被配置為將輸入文字添加至用戶選擇的輸入視頻的時間軸片段。

根據(jù)本公開的第三方面，提供了一種電子設(shè)備，包括：至少一個處理器；以及與至少一個處理器通信連接的存儲器；其中，存儲器存儲有可被至少一個處理器執(zhí)行的指令，指令被至少一個處理器執(zhí)行，以使至少一個處理器能夠執(zhí)行如第一方面中任一實(shí)現(xiàn)方式描述的方法。

根據(jù)本公開的第四方面，提供了一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì)，計算機(jī)指令用于使計算機(jī)執(zhí)行如第一方面中任一實(shí)現(xiàn)方式描述的方法。

根據(jù)本公開的第五方面，提供了一種計算機(jī)程序產(chǎn)品，包括計算機(jī)程序，計算機(jī)程序在被處理器執(zhí)行如第一方面中任一實(shí)現(xiàn)方式描述的方法。

本公開提供的用于移動終端的字幕生成方法、裝置、設(shè)備以及存儲介質(zhì)，首先獲取基于音頻數(shù)據(jù)采集設(shè)備采集的輸入語音；之后采用語音識別模型，將輸入語音轉(zhuǎn)換為輸入文字；而后獲取配置于輸入視頻的時間軸；最后將輸入文字添加至用戶選擇的輸入視頻的時間軸片段，從而提供了一種在移動終端為視頻添加字幕的方法，相較于在個人計算機(jī)端使用專業(yè)軟件工具為視頻添加字幕，節(jié)省了學(xué)習(xí)成本，簡化了字幕添加流程。

應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述，本申請的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯。附圖用于更好地理解本方案，不構(gòu)成對本申請的限定。其中：

圖1是本申請可以用于其中的示例性系統(tǒng)架構(gòu)圖；

圖2是根據(jù)本申請的用于移動終端的字幕生成方法的一個實(shí)施例的流程示意圖；

圖3是根據(jù)本申請的用于移動終端的字幕生成方法的另一個實(shí)施例的流程示意圖；

圖4是根據(jù)本申請的用于移動終端的字幕生成方法的一個實(shí)施例的應(yīng)用場景示意圖；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司，未經(jīng)北京百度網(wǎng)訊科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011497650.3/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種用于下肢減重訓(xùn)練的輔助裝置
下一篇：一種基于時空特性的公交預(yù)信號優(yōu)先控制方法及系統(tǒng)

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04N 圖像通信，如電視
H04N21-00 可選的內(nèi)容分發(fā)，例如交互式電視，VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器，例如：VOD服務(wù)器；其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備，如STB[機(jī)頂盒]；相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨(dú)立于分配過程實(shí)現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理；內(nèi)容本身
H04N21-81 ..其單媒體部件

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】