[發(fā)明專利]一種基于人工智能的字幕生成方法和裝置有效

申請(qǐng)?zhí)枺?/td>	201910740405.1	申請(qǐng)日：	2018-11-14
公開(kāi)（公告）號(hào)：	CN110381388B	公開(kāi)（公告）日：	2021-04-13
發(fā)明（設(shè)計(jì)）人：	張宇露;陳聯(lián)武;陳祺;蔡建偉	申請(qǐng)（專利權(quán)）人：	騰訊科技（深圳）有限公司
主分類號(hào)：	H04N21/488	分類號(hào)：	H04N21/488;H04N21/4402;H04N21/8547;H04N21/439;H04N5/278;G10L15/26
代理公司：	深圳市深佳知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285	代理人：	王仲凱
地址：	518057 廣東省深圳***	國(guó)省代碼：	廣東;44
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于人工智能字幕生成方法裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書(shū)】：

本申請(qǐng)實(shí)施例公開(kāi)了一種基于人工智能的字幕生成方法和裝置，至少涉及人工智能中的語(yǔ)音處理技術(shù)和自然語(yǔ)言處理技術(shù)，針對(duì)來(lái)自同一個(gè)音頻流、且根據(jù)靜音片段切分的多個(gè)語(yǔ)音片段，通過(guò)語(yǔ)音識(shí)別得到多個(gè)語(yǔ)音片段分別對(duì)應(yīng)的文本并確定靜音片段的時(shí)間長(zhǎng)度。在根據(jù)目標(biāo)語(yǔ)音片段所對(duì)應(yīng)文本確定字幕時(shí)，根據(jù)音頻流時(shí)間軸的順序，依次確定靜音片段的時(shí)間長(zhǎng)度是否大于預(yù)設(shè)時(shí)長(zhǎng)，以此確定包括了該目標(biāo)語(yǔ)音片段所對(duì)應(yīng)文本的待處理文本組。之后，根據(jù)待處理文本組中字符數(shù)量多少以及是否具有分隔符確定字幕文本，由于分隔符間的文本部分屬于完整的句子，能夠體現(xiàn)合理的語(yǔ)義，故確定的字幕文本中出現(xiàn)不完整句子的可能性低，將該字幕文本作為字幕進(jìn)行展示時(shí)，能夠幫助收看音視頻的用戶理解音視頻內(nèi)容。

本申請(qǐng)對(duì)申請(qǐng)?zhí)枮?01811355311.4，申請(qǐng)日為2018年11月14日，發(fā)明名稱為“一種字幕生成方法和裝置”的中國(guó)專利申請(qǐng)?zhí)岢龇职干暾?qǐng)。

技術(shù)領(lǐng)域

本申請(qǐng)涉及音頻處理領(lǐng)域，特別是涉及一種基于人工智能的字幕生成方法和裝置。

背景技術(shù)

用戶在收看一些音視頻例如網(wǎng)絡(luò)直播、電影時(shí)，可以通過(guò)音視頻展示畫(huà)面上顯示的字幕理解音視頻內(nèi)容。

在傳統(tǒng)的音視頻字幕生成方式中，主要根據(jù)靜音片段來(lái)處理音頻流，以便生成字幕。靜音片段可以是音視頻的音頻流中沒(méi)有語(yǔ)音的片段，根據(jù)靜音片段將音頻流切分為多個(gè)語(yǔ)音片段，其中，可以將任一個(gè)語(yǔ)音片段中語(yǔ)音對(duì)應(yīng)的文本生成這一語(yǔ)音片段的字幕。

然而，由于傳統(tǒng)方式只是根據(jù)靜音片段這種單一的音頻信號(hào)特征來(lái)切分音頻流，難以區(qū)分人物表達(dá)中一句話內(nèi)的表達(dá)停頓和句子間的表達(dá)停頓，從而經(jīng)常會(huì)切分出不當(dāng)?shù)恼Z(yǔ)音片段，從而以此生成的字幕將包括不完整的句子，難以幫助用戶理解音視頻內(nèi)容，甚至還會(huì)誤導(dǎo)用戶，造成不良體驗(yàn)。

發(fā)明內(nèi)容

為了解決上述技術(shù)問(wèn)題，本申請(qǐng)?zhí)峁┝艘环N基于人工智能的字幕生成方法和裝置，通過(guò)分隔符確定出的字幕文本中出現(xiàn)不完整句子的可能性大大降低，將該字幕文本作為所對(duì)應(yīng)音頻流時(shí)間軸區(qū)間的字幕進(jìn)行展示時(shí)，能夠幫助收看音視頻的用戶理解音視頻內(nèi)容，提高了用戶體驗(yàn)。

本申請(qǐng)實(shí)施例公開(kāi)了如下技術(shù)方案：

第一方面，本申請(qǐng)實(shí)施例提供一種字幕生成方法，所述方法包括

獲取來(lái)自同一個(gè)音頻流、且根據(jù)靜音片段切分的多個(gè)語(yǔ)音片段；

對(duì)所述多個(gè)語(yǔ)音片段進(jìn)行語(yǔ)音識(shí)別，得到所述多個(gè)語(yǔ)音片段分別對(duì)應(yīng)的文本，所述多個(gè)語(yǔ)音片段分別對(duì)應(yīng)的文本中包括根據(jù)文本語(yǔ)義添加的分隔符；

在根據(jù)所述多個(gè)語(yǔ)音片段中目標(biāo)語(yǔ)音片段所對(duì)應(yīng)文本確定字幕時(shí)，確定待處理文本組，所述待處理文本組至少包括所述目標(biāo)語(yǔ)音片段對(duì)應(yīng)的文本；

根據(jù)所述待處理文本組中的分隔符從所述待處理文本組中確定字幕文本；

將所述字幕文本作為所對(duì)應(yīng)音頻流時(shí)間軸區(qū)間的字幕。

第二方面，本申請(qǐng)實(shí)施例提供一種字幕生成裝置，所述裝置包括獲取單元、識(shí)別單元、第一確定單元、第二確定單元和生成單元：

所述獲取單元，用于獲取來(lái)自同一個(gè)音頻流、且根據(jù)靜音片段切分的多個(gè)語(yǔ)音片段；

所述識(shí)別單元，用于對(duì)所述多個(gè)語(yǔ)音片段進(jìn)行語(yǔ)音識(shí)別，得到所述多個(gè)語(yǔ)音片段分別對(duì)應(yīng)的文本，所述多個(gè)語(yǔ)音片段分別對(duì)應(yīng)的文本中包括根據(jù)文本語(yǔ)義添加的分隔符；

所述第一確定單元，用于在根據(jù)所述多個(gè)語(yǔ)音片段中目標(biāo)語(yǔ)音片段所對(duì)應(yīng)文本確定字幕時(shí)，確定待處理文本組，所述待處理文本組至少包括所述目標(biāo)語(yǔ)音片段的文本；

所述第二確定單元，用于根據(jù)所述待處理文本組中的分隔符從所述待處理文本組中確定字幕文本；

所述生成單元，用于將所述字幕文本作為所對(duì)應(yīng)音頻流時(shí)間軸區(qū)間的字幕。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技（深圳）有限公司，未經(jīng)騰訊科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910740405.1/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：一種消息顯示方法及裝置
下一篇：一種刷板植毛孔快速檢測(cè)裝置

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04N 圖像通信，如電視
H04N21-00 可選的內(nèi)容分發(fā)，例如交互式電視，VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器，例如：VOD服務(wù)器；其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備，如STB[機(jī)頂盒]；相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過(guò)內(nèi)容產(chǎn)生器獨(dú)立于分配過(guò)程實(shí)現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理；內(nèi)容本身
H04N21-81 ..其單媒體部件

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書(shū)；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】