[發(fā)明專利]用于移動終端的字幕生成方法、裝置、設(shè)備以及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202011497650.3 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112653932B | 公開(公告)日: | 2023-09-26 |
| 發(fā)明(設(shè)計)人: | 董曉飛 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | H04N21/488 | 分類號: | H04N21/488;H04N5/278;G10L15/26 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 移動 終端 字幕 生成 方法 裝置 設(shè)備 以及 存儲 介質(zhì) | ||
本公開公開了用于移動終端的字幕生成方法、裝置、設(shè)備以及存儲介質(zhì),涉及人工智能領(lǐng)域,尤其涉及語音識別、自然語言處理技術(shù)領(lǐng)域,具體實(shí)現(xiàn)方案為:獲取基于音頻數(shù)據(jù)采集設(shè)備采集的輸入語音;采用語音識別模型,將輸入語音轉(zhuǎn)換為輸入文字;獲取配置于輸入視頻的時間軸;將輸入文字添加至用戶選擇的輸入視頻的時間軸片段,提供了一種在移動終端為視頻添加字幕的方法,相較于在個人計算機(jī)端使用專業(yè)軟件工具為視頻添加字幕,節(jié)省了學(xué)習(xí)成本,簡化了字幕添加流程。
技術(shù)領(lǐng)域
本公開涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及語音識別、自然語言處理等人工智能技術(shù)領(lǐng)域,尤其涉及用于移動終端的字幕生成方法、裝置、設(shè)備以及存儲介質(zhì)。
背景技術(shù)
隨著移動互聯(lián)網(wǎng)的進(jìn)一步發(fā)展,在當(dāng)今內(nèi)容為王的大趨勢下,搭建和提供更多高質(zhì)量的內(nèi)容顯得尤為重要。而作為內(nèi)容生產(chǎn)的大戶,用戶內(nèi)容生態(tài)也如雨后春筍一般不斷涌現(xiàn),其中視頻承載內(nèi)容體系要優(yōu)于圖文、音頻等。但專業(yè)的視頻剪輯、音頻處理等存在著學(xué)習(xí)成本高,個人用戶入門困難,花費(fèi)時間長等問題,這些問題會反向抑制用戶創(chuàng)作者的熱情和想法。尤其在移動互聯(lián)網(wǎng)時代,大部分的用戶操作設(shè)備僅僅是一部手機(jī),不具備更多專業(yè)設(shè)備進(jìn)行后期處理。
發(fā)明內(nèi)容
本公開提供了用于移動終端的字幕生成方法、裝置、設(shè)備以及存儲介質(zhì)。
根據(jù)本公開的第一方面,提供了一種用于移動終端的字幕生成方法,包括:獲取基于音頻數(shù)據(jù)采集設(shè)備采集的輸入語音;采用語音識別模型,將輸入語音轉(zhuǎn)換為輸入文字;獲取配置于輸入視頻的時間軸;將輸入文字添加至用戶選擇的輸入視頻的時間軸片段。
根據(jù)本公開的第二方面,提供了一種用于移動終端的字幕生成裝置,包括:第一獲取模塊,被配置為獲取基于音頻數(shù)據(jù)采集設(shè)備采集的輸入語音;轉(zhuǎn)換模塊,被配置為采用語音識別模型,將輸入語音轉(zhuǎn)換為輸入文字;第二獲取模塊,被配置為獲取配置于輸入視頻的時間軸;添加模塊,被配置為將輸入文字添加至用戶選擇的輸入視頻的時間軸片段。
根據(jù)本公開的第三方面,提供了一種電子設(shè)備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行如第一方面中任一實(shí)現(xiàn)方式描述的方法。
根據(jù)本公開的第四方面,提供了一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì),計算機(jī)指令用于使計算機(jī)執(zhí)行如第一方面中任一實(shí)現(xiàn)方式描述的方法。
根據(jù)本公開的第五方面,提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,計算機(jī)程序在被處理器執(zhí)行如第一方面中任一實(shí)現(xiàn)方式描述的方法。
本公開提供的用于移動終端的字幕生成方法、裝置、設(shè)備以及存儲介質(zhì),首先獲取基于音頻數(shù)據(jù)采集設(shè)備采集的輸入語音;之后采用語音識別模型,將輸入語音轉(zhuǎn)換為輸入文字;而后獲取配置于輸入視頻的時間軸;最后將輸入文字添加至用戶選擇的輸入視頻的時間軸片段,從而提供了一種在移動終端為視頻添加字幕的方法,相較于在個人計算機(jī)端使用專業(yè)軟件工具為視頻添加字幕,節(jié)省了學(xué)習(xí)成本,簡化了字幕添加流程。
應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本申請的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯。附圖用于更好地理解本方案,不構(gòu)成對本申請的限定。其中:
圖1是本申請可以用于其中的示例性系統(tǒng)架構(gòu)圖;
圖2是根據(jù)本申請的用于移動終端的字幕生成方法的一個實(shí)施例的流程示意圖;
圖3是根據(jù)本申請的用于移動終端的字幕生成方法的另一個實(shí)施例的流程示意圖;
圖4是根據(jù)本申請的用于移動終端的字幕生成方法的一個實(shí)施例的應(yīng)用場景示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011497650.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機(jī)頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨(dú)立于分配過程實(shí)現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件





