[發(fā)明專利]一種基于人工智能的字幕生成方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201910740405.1 | 申請(qǐng)日: | 2018-11-14 |
| 公開(kāi)(公告)號(hào): | CN110381388B | 公開(kāi)(公告)日: | 2021-04-13 |
| 發(fā)明(設(shè)計(jì))人: | 張宇露;陳聯(lián)武;陳祺;蔡建偉 | 申請(qǐng)(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號(hào): | H04N21/488 | 分類號(hào): | H04N21/488;H04N21/4402;H04N21/8547;H04N21/439;H04N5/278;G10L15/26 |
| 代理公司: | 深圳市深佳知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 人工智能 字幕 生成 方法 裝置 | ||
本申請(qǐng)實(shí)施例公開(kāi)了一種基于人工智能的字幕生成方法和裝置,至少涉及人工智能中的語(yǔ)音處理技術(shù)和自然語(yǔ)言處理技術(shù),針對(duì)來(lái)自同一個(gè)音頻流、且根據(jù)靜音片段切分的多個(gè)語(yǔ)音片段,通過(guò)語(yǔ)音識(shí)別得到多個(gè)語(yǔ)音片段分別對(duì)應(yīng)的文本并確定靜音片段的時(shí)間長(zhǎng)度。在根據(jù)目標(biāo)語(yǔ)音片段所對(duì)應(yīng)文本確定字幕時(shí),根據(jù)音頻流時(shí)間軸的順序,依次確定靜音片段的時(shí)間長(zhǎng)度是否大于預(yù)設(shè)時(shí)長(zhǎng),以此確定包括了該目標(biāo)語(yǔ)音片段所對(duì)應(yīng)文本的待處理文本組。之后,根據(jù)待處理文本組中字符數(shù)量多少以及是否具有分隔符確定字幕文本,由于分隔符間的文本部分屬于完整的句子,能夠體現(xiàn)合理的語(yǔ)義,故確定的字幕文本中出現(xiàn)不完整句子的可能性低,將該字幕文本作為字幕進(jìn)行展示時(shí),能夠幫助收看音視頻的用戶理解音視頻內(nèi)容。
本申請(qǐng)對(duì)申請(qǐng)?zhí)枮?01811355311.4,申請(qǐng)日為2018年11月14日,發(fā)明名稱為“一種字幕生成方法和裝置”的中國(guó)專利申請(qǐng)?zhí)岢龇职干暾?qǐng)。
技術(shù)領(lǐng)域
本申請(qǐng)涉及音頻處理領(lǐng)域,特別是涉及一種基于人工智能的字幕生成方法和裝置。
背景技術(shù)
用戶在收看一些音視頻例如網(wǎng)絡(luò)直播、電影時(shí),可以通過(guò)音視頻展示畫(huà)面上顯示的字幕理解音視頻內(nèi)容。
在傳統(tǒng)的音視頻字幕生成方式中,主要根據(jù)靜音片段來(lái)處理音頻流,以便生成字幕。靜音片段可以是音視頻的音頻流中沒(méi)有語(yǔ)音的片段,根據(jù)靜音片段將音頻流切分為多個(gè)語(yǔ)音片段,其中,可以將任一個(gè)語(yǔ)音片段中語(yǔ)音對(duì)應(yīng)的文本生成這一語(yǔ)音片段的字幕。
然而,由于傳統(tǒng)方式只是根據(jù)靜音片段這種單一的音頻信號(hào)特征來(lái)切分音頻流,難以區(qū)分人物表達(dá)中一句話內(nèi)的表達(dá)停頓和句子間的表達(dá)停頓,從而經(jīng)常會(huì)切分出不當(dāng)?shù)恼Z(yǔ)音片段,從而以此生成的字幕將包括不完整的句子,難以幫助用戶理解音視頻內(nèi)容,甚至還會(huì)誤導(dǎo)用戶,造成不良體驗(yàn)。
發(fā)明內(nèi)容
為了解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N基于人工智能的字幕生成方法和裝置,通過(guò)分隔符確定出的字幕文本中出現(xiàn)不完整句子的可能性大大降低,將該字幕文本作為所對(duì)應(yīng)音頻流時(shí)間軸區(qū)間的字幕進(jìn)行展示時(shí),能夠幫助收看音視頻的用戶理解音視頻內(nèi)容,提高了用戶體驗(yàn)。
本申請(qǐng)實(shí)施例公開(kāi)了如下技術(shù)方案:
第一方面,本申請(qǐng)實(shí)施例提供一種字幕生成方法,所述方法包括
獲取來(lái)自同一個(gè)音頻流、且根據(jù)靜音片段切分的多個(gè)語(yǔ)音片段;
對(duì)所述多個(gè)語(yǔ)音片段進(jìn)行語(yǔ)音識(shí)別,得到所述多個(gè)語(yǔ)音片段分別對(duì)應(yīng)的文本,所述多個(gè)語(yǔ)音片段分別對(duì)應(yīng)的文本中包括根據(jù)文本語(yǔ)義添加的分隔符;
在根據(jù)所述多個(gè)語(yǔ)音片段中目標(biāo)語(yǔ)音片段所對(duì)應(yīng)文本確定字幕時(shí),確定待處理文本組,所述待處理文本組至少包括所述目標(biāo)語(yǔ)音片段對(duì)應(yīng)的文本;
根據(jù)所述待處理文本組中的分隔符從所述待處理文本組中確定字幕文本;
將所述字幕文本作為所對(duì)應(yīng)音頻流時(shí)間軸區(qū)間的字幕。
第二方面,本申請(qǐng)實(shí)施例提供一種字幕生成裝置,所述裝置包括獲取單元、識(shí)別單元、第一確定單元、第二確定單元和生成單元:
所述獲取單元,用于獲取來(lái)自同一個(gè)音頻流、且根據(jù)靜音片段切分的多個(gè)語(yǔ)音片段;
所述識(shí)別單元,用于對(duì)所述多個(gè)語(yǔ)音片段進(jìn)行語(yǔ)音識(shí)別,得到所述多個(gè)語(yǔ)音片段分別對(duì)應(yīng)的文本,所述多個(gè)語(yǔ)音片段分別對(duì)應(yīng)的文本中包括根據(jù)文本語(yǔ)義添加的分隔符;
所述第一確定單元,用于在根據(jù)所述多個(gè)語(yǔ)音片段中目標(biāo)語(yǔ)音片段所對(duì)應(yīng)文本確定字幕時(shí),確定待處理文本組,所述待處理文本組至少包括所述目標(biāo)語(yǔ)音片段的文本;
所述第二確定單元,用于根據(jù)所述待處理文本組中的分隔符從所述待處理文本組中確定字幕文本;
所述生成單元,用于將所述字幕文本作為所對(duì)應(yīng)音頻流時(shí)間軸區(qū)間的字幕。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910740405.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種消息顯示方法及裝置
- 下一篇:一種刷板植毛孔快速檢測(cè)裝置
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機(jī)頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過(guò)內(nèi)容產(chǎn)生器獨(dú)立于分配過(guò)程實(shí)現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件
- 使用基于云端的度量迭代訓(xùn)練人工智能的系統(tǒng)
- 一種人工智能轉(zhuǎn)人工智能再轉(zhuǎn)人工方案
- O-RAN系統(tǒng)中的人工智能模型處理方法和裝置
- 人工智能傷口評(píng)估方法及智能終端
- 人工智能倫理風(fēng)險(xiǎn)與防范虛擬仿真方法、系統(tǒng)和機(jī)器人
- 一種基于人工智能基礎(chǔ)資源與技術(shù)調(diào)控系統(tǒng)及方法
- 基于人工智能倫理備選規(guī)則的人工智能倫理風(fēng)險(xiǎn)防范方法
- 人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范虛擬仿真實(shí)驗(yàn)方法和機(jī)器人
- 基于人工智能體決策的人工智能倫理風(fēng)險(xiǎn)辨識(shí)和防范方法
- 基于算法選擇的人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范方法和機(jī)器人





