[發(fā)明專利]一種字幕糾正方法、字幕顯示方法、裝置、設(shè)備及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010881048.3 | 申請(qǐng)日: | 2020-08-27 |
| 公開(公告)號(hào): | CN111968649B | 公開(公告)日: | 2023-09-15 |
| 發(fā)明(設(shè)計(jì))人: | 陳小帥 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G10L15/26 | 分類號(hào): | G10L15/26;H04N21/233;H04N21/235 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 梁嘉琦 |
| 地址: | 518000 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 字幕 糾正 方法 顯示 裝置 設(shè)備 介質(zhì) | ||
1.一種字幕糾正方法,其特征在于,包括:
獲取視頻數(shù)據(jù)中的音頻流數(shù)據(jù)和視頻畫面數(shù)據(jù);
對(duì)所述音頻流數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別,得到第一字幕信息;
對(duì)所述視頻畫面數(shù)據(jù)進(jìn)行文本識(shí)別;
根據(jù)所述文本識(shí)別的結(jié)果對(duì)所述第一字幕信息進(jìn)行糾正,得到第二字幕信息;
其中,所述對(duì)所述視頻畫面數(shù)據(jù)進(jìn)行文本識(shí)別,包括:
對(duì)所述視頻畫面數(shù)據(jù)中的畫面內(nèi)容進(jìn)行文本識(shí)別,得到視頻內(nèi)容文本;
對(duì)所述視頻內(nèi)容文本進(jìn)行第一分詞,并從所述第一分詞的結(jié)果中確定視頻內(nèi)容詞表,所述視頻內(nèi)容詞表中任意詞條的詞頻大于預(yù)設(shè)閾值;
根據(jù)所述視頻內(nèi)容詞表,構(gòu)建視頻內(nèi)容詞庫(kù);
根據(jù)所述視頻內(nèi)容詞庫(kù),構(gòu)建查詢索引;
其中,所述根據(jù)所述文本識(shí)別的結(jié)果對(duì)所述第一字幕信息進(jìn)行糾正,得到第二字幕信息,包括:
對(duì)所述第一字幕信息進(jìn)行第二分詞;
根據(jù)所述第二分詞的結(jié)果構(gòu)建連續(xù)詞片段;
根據(jù)所述查詢索引,在所述視頻內(nèi)容詞庫(kù)中確定所述連續(xù)詞片段對(duì)應(yīng)的初始糾正候選詞;
根據(jù)所述初始糾正候選詞的置信度,確定目標(biāo)糾正候選詞;
通過(guò)所述目標(biāo)糾正候選詞對(duì)所述第一字幕信息進(jìn)行糾正,得到第二字幕信息;
其中,所述根據(jù)所述初始糾正候選詞的置信度,確定目標(biāo)糾正候選詞,包括:
根據(jù)候選相似度、初始糾正候選詞在所述視頻內(nèi)容詞庫(kù)中的語(yǔ)言模型概率以及候選詞片段個(gè)數(shù)減少量,確定所述初始糾正候選詞的置信度;
根據(jù)所述初始糾正候選詞的置信度,將所述初始糾正候選詞中滿足第一預(yù)設(shè)條件的初始糾正候選詞確定為目標(biāo)糾正候選詞。
2.根據(jù)權(quán)利要求1所述的一種字幕糾正方法,其特征在于,所述根據(jù)所述視頻內(nèi)容詞表,構(gòu)建視頻內(nèi)容詞庫(kù),包括:
確定所述視頻內(nèi)容詞表中所有詞條的語(yǔ)言模型概率;其中,所述語(yǔ)言模型概率包括所述視頻內(nèi)容詞表中每個(gè)詞條的一元概率和若干個(gè)詞條之間的多元概率,所述若干個(gè)詞條包括至少兩個(gè)詞條;
根據(jù)所述一元概率和所述多元概率,構(gòu)建得到視頻內(nèi)容詞庫(kù)。
3.根據(jù)權(quán)利要求1所述的一種字幕糾正方法,其特征在于,所述根據(jù)所述視頻內(nèi)容詞庫(kù),構(gòu)建查詢索引,包括:
對(duì)所述視頻內(nèi)容詞庫(kù)中詞條進(jìn)行拼音注音,得到所述詞條的全拼信息和簡(jiǎn)拼信息;
根據(jù)所述全拼信息和該全拼信息對(duì)應(yīng)的詞條構(gòu)建第一拼音索引;
根據(jù)所述簡(jiǎn)拼信息和該簡(jiǎn)拼信息對(duì)應(yīng)的詞條構(gòu)建第二拼音索引。
4.根據(jù)權(quán)利要求1所述的一種字幕糾正方法,其特征在于,所述根據(jù)所述視頻內(nèi)容詞庫(kù),構(gòu)建查詢索引,還包括:
對(duì)所述視頻內(nèi)容詞庫(kù)中詞條進(jìn)行筆畫拆解,得到所述詞條的筆畫信息;
根據(jù)所述詞條的筆畫信息和該筆畫信息對(duì)應(yīng)的詞條構(gòu)建筆畫索引。
5.根據(jù)權(quán)利要求1所述的一種字幕糾正方法,其特征在于,所述根據(jù)所述初始糾正候選詞的置信度,確定目標(biāo)糾正候選詞,至少包括以下步驟之一:
通過(guò)先驗(yàn)知識(shí)構(gòu)建置信度判定規(guī)則,根據(jù)所述置信度判定規(guī)則確定所述初始糾正候選詞的置信度,并確定目標(biāo)糾正候選詞;
構(gòu)建置信標(biāo)記分類模型,根據(jù)所述置信標(biāo)記分類模型確定所述初始糾正候選詞的置信度,并確定目標(biāo)糾正候選詞。
6.根據(jù)權(quán)利要求5所述的一種字幕糾正方法,其特征在于,所述通過(guò)先驗(yàn)知識(shí)構(gòu)建置信度判定規(guī)則,根據(jù)所述置信度判定規(guī)則確定所述初始糾正候選詞的置信度,并確定目標(biāo)糾正候選詞,包括:
確定所述初始糾正候選詞的候選相似度;
確定所述初始糾正候選詞在所述視頻內(nèi)容詞庫(kù)中的語(yǔ)言模型概率;
確定所述初始糾正候選詞的候選詞片段個(gè)數(shù)減少量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010881048.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





