[發(fā)明專利]字幕生成方法、裝置、計算機(jī)可讀存儲介質(zhì)及電子設(shè)備有效
| 申請?zhí)枺?/td> | 202110402433.X | 申請日: | 2021-04-14 |
| 公開(公告)號: | CN113225612B | 公開(公告)日: | 2022-10-11 |
| 發(fā)明(設(shè)計)人: | 楊鶴;任浩;方向陽;牛正青;楊亮;蘭永亮;岳海純;常恒毅 | 申請(專利權(quán))人: | 新東方教育科技集團(tuán)有限公司 |
| 主分類號: | H04N21/439 | 分類號: | H04N21/439;H04N21/4402;H04N21/488;G10L15/26;G10L15/04;G10L15/02;G10L15/06;G06F40/30;G06F40/216;G06F16/35 |
| 代理公司: | 北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11447 | 代理人: | 賈會玲 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 字幕 生成 方法 裝置 計算機(jī) 可讀 存儲 介質(zhì) 電子設(shè)備 | ||
1.一種字幕生成方法,其特征在于,包括:
獲取待生成字幕的目標(biāo)視頻的音頻數(shù)據(jù);
將所述音頻數(shù)據(jù)進(jìn)行切分,得到多個音頻片段;
針對每一所述音頻片段,提取所述音頻片段對應(yīng)的第一文本數(shù)據(jù);提取所述第一文本數(shù)據(jù)的字符語義特征、短語語義特征以及音素特征;根據(jù)所述第一文本數(shù)據(jù)的字符語義特征、短語語義特征以及音素特征,對所述第一文本數(shù)據(jù)進(jìn)行修正,得到所述音頻片段對應(yīng)的第二文本數(shù)據(jù);
將每一所述音頻片段對應(yīng)的第二文本數(shù)據(jù)合并,得到所述目標(biāo)視頻的字幕信息;
所述根據(jù)所述第一文本數(shù)據(jù)的字符語義特征、短語語義特征以及音素特征,對所述第一文本數(shù)據(jù)進(jìn)行修正,得到所述音頻片段對應(yīng)的第二文本數(shù)據(jù),包括:
將所述第一文本數(shù)據(jù)的字符語義特征、短語語義特征以及音素特征進(jìn)行拼接,得到拼接特征;
根據(jù)所述拼接特征,預(yù)測所述第一文本數(shù)據(jù)中每一字符對應(yīng)的概率分布,其中,所述字符對應(yīng)的所述概率分布包括預(yù)設(shè)參考字符在所述字符在所述第一文本數(shù)據(jù)中的位置出現(xiàn)的概率;
針對所述第一文本數(shù)據(jù)中的每一所述字符,根據(jù)所述字符對應(yīng)的所述概率分布,確定所述字符是否為錯別字;若所述字符為錯別字,則利用所述字符對應(yīng)的概率分布中、最大概率對應(yīng)的所述預(yù)設(shè)參考字符替換所述字符,以得到所述第二文本數(shù)據(jù);
所述方法還包括:獲取所述目標(biāo)視頻的圖像數(shù)據(jù);針對每一所述音頻片段,從所述圖像數(shù)據(jù)中確定與所述音頻片段對應(yīng)的圖像序列;提取所述圖像序列中包含的第三文本數(shù)據(jù),并根據(jù)所述圖像序列,生成用于描述所述圖像序列的第四文本數(shù)據(jù);在所述利用所述字符對應(yīng)的概率分布中、最大概率對應(yīng)的所述預(yù)設(shè)參考字符替換所述字符的步驟之前,所述根據(jù)所述第一文本數(shù)據(jù)的字符語義特征、短語語義特征以及音素特征,對所述第一文本數(shù)據(jù)進(jìn)行修正,得到所述音頻片段對應(yīng)的第二文本數(shù)據(jù),還包括:若所述字符為錯別字,則針對所述字符對應(yīng)的所述概率分布中概率最高的K個概率對應(yīng)的預(yù)設(shè)參考字符中的每一預(yù)設(shè)參考字符,判斷該預(yù)設(shè)參考字符是否出現(xiàn)在所述第三文本數(shù)據(jù)或所述第四文本數(shù)據(jù)中;若該預(yù)設(shè)參考字符出現(xiàn)在所述第三文本數(shù)據(jù)或所述第四文本數(shù)據(jù)中,則增大該預(yù)設(shè)參考字符在所述字符在所述第一文本數(shù)據(jù)中的位置出現(xiàn)的概率,并對應(yīng)減小所述字符對應(yīng)的所述概率分布中、除所述概率最高的K個概率對應(yīng)的預(yù)設(shè)參考字符外的任一其他預(yù)設(shè)參考字符在所述字符在所述第一文本數(shù)據(jù)中的位置出現(xiàn)的概率;
或者
所述目標(biāo)視頻的類型為教學(xué)視頻;所述方法還包括:根據(jù)所述第一文本數(shù)據(jù),確定所述目標(biāo)視頻所屬的目標(biāo)學(xué)科和目標(biāo)學(xué)段;在所述利用所述字符對應(yīng)的概率分布中、最大概率對應(yīng)的所述預(yù)設(shè)參考字符替換所述字符的步驟之前,所述根據(jù)所述第一文本數(shù)據(jù)的字符語義特征、短語語義特征以及音素特征,對所述第一文本數(shù)據(jù)進(jìn)行修正,得到所述音頻片段對應(yīng)的第二文本數(shù)據(jù),還包括:若所述字符為錯別字,則針對所述字符對應(yīng)的所述概率分布中概率最高的K個概率對應(yīng)的預(yù)設(shè)參考字符中的每一預(yù)設(shè)參考字符,判斷該預(yù)設(shè)參考字符是否出現(xiàn)在與所述目標(biāo)學(xué)科和所述學(xué)段對應(yīng)的詞表中;若該預(yù)設(shè)參考字符出現(xiàn)在所述與所述目標(biāo)學(xué)科和所述學(xué)段對應(yīng)的詞表中,則增大該預(yù)設(shè)參考字符在所述字符在所述第一文本數(shù)據(jù)中的位置出現(xiàn)的概率,并對應(yīng)減小所述字符對應(yīng)的所述概率分布中、除概率最高的K個概率對應(yīng)的預(yù)設(shè)參考字符外的任一其他預(yù)設(shè)參考字符在所述字符在所述第一文本數(shù)據(jù)中的位置出現(xiàn)的概率。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述字符對應(yīng)的所述概率分布,確定所述字符是否為錯別字,包括:
若所述字符對應(yīng)的所述概率分布中概率最高的K個概率對應(yīng)的預(yù)設(shè)參考字符中、不存在所述字符,則確定所述字符為錯別字,其中,K為大于或等于1的整數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述方法包括所述獲取所述目標(biāo)視頻的圖像數(shù)據(jù)的步驟的情況下,所述根據(jù)所述第一文本數(shù)據(jù)的字符語義特征、短語語義特征以及音素特征,對所述第一文本數(shù)據(jù)進(jìn)行修正,得到所述音頻片段對應(yīng)的第二文本數(shù)據(jù),還包括:
若該預(yù)設(shè)參考字符未出現(xiàn)在所述第三文本數(shù)據(jù)和所述第四文本數(shù)據(jù)中,則保持該預(yù)設(shè)參考字符在所述字符在所述第一文本數(shù)據(jù)中的位置出現(xiàn)的概率不變。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新東方教育科技集團(tuán)有限公司,未經(jīng)新東方教育科技集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110402433.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機(jī)頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件





