[發明專利]一種基于人工智能的字幕生成方法和裝置有效
| 申請號: | 201910740405.1 | 申請日: | 2018-11-14 |
| 公開(公告)號: | CN110381388B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 張宇露;陳聯武;陳祺;蔡建偉 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | H04N21/488 | 分類號: | H04N21/488;H04N21/4402;H04N21/8547;H04N21/439;H04N5/278;G10L15/26 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人工智能 字幕 生成 方法 裝置 | ||
1.一種基于人工智能的字幕生成方法,其特征在于,所述方法包括:
獲取來自同一個音頻流、且根據靜音片段切分的多個語音片段;
對所述多個語音片段進行語音識別,得到所述多個語音片段分別對應的文本,所述多個語音片段分別對應的文本中包括根據文本語義添加的分隔符;
確定所述多個語音片段之間靜音片段的時間長度;
在根據所述多個語音片段中目標語音片段所對應文本確定字幕時,根據音頻流時間軸的順序,從所述目標語音片段開始依次確定靜音片段的時間長度是否大于預設時長;
若確定出目標靜音片段的時間長度大于預設時長,將處于所述目標靜音片段與所述目標語音片段之間的語音片段所對應文本加入待處理文本組;所述待處理文本組至少包括所述目標語音片段對應的文本;
判斷所述待處理文本組的字符數量是否大于預設數量,所述預設數量是根據顯示字幕長度確定的;
若所述待處理文本組的字符數量不大于所述預設數量,將所述待處理文本組確定為字幕文本;
若所述待處理文本組的字符數量大于所述預設數量,根據所述待處理文本組中的分隔符從所述待處理文本組中確定字幕文本;
若所述待處理文本組的字符數量大于所述預設數量,且所述待處理文本組中不包括分隔符,判斷所述待處理文本組的字符數量是否大于最大數量,所述最大數量為顯示字幕最長長度所對應的字符數量;
若所述待處理文本組的字符數量大于最大數量,將所述待處理文本組前所述最大數量的字符確定為所述字幕文本;
若所述待處理文本組的字符數量不大于最大數量,將所述待處理文本組確定為所述字幕文本;
將所述字幕文本作為所對應音頻流時間軸區間的字幕。
2.根據權利要求1所述的方法,其特征在于,所述根據所述待處理文本組中的分隔符從所述待處理文本組中確定字幕文本,包括:
將所述待處理文本組中從第一個字符到最后一個分隔符之間的部分確定為字幕文本;或者,
將所述待處理文本組中從第一個字符到所述待處理文本組前預設數量字符中最后一個分隔符之間的部分確定為字幕文本,所述預設數量是根據顯示字幕長度確定的。
3.根據權利要求1所述的方法,其特征在于,在所述根據所述待處理文本組中的分隔符從所述待處理文本組中確定字幕文本之后,所述方法還包括:
確定所述字幕文本中第一個字符在所對應語音片段中的相對開始時刻;
根據所述相對開始時刻與所述第一個字符所對應語音片段在音頻流時間軸上的時間偏移,確定出所述字幕文本所對應音頻流時間軸區間的開始時刻;
確定所述字幕文本中最后一個字符在所對應語音片段中的相對結束時刻;
根據所述相對結束時刻與所述最后一個字符所對應語音片段在音頻流時間軸上的時間偏移,確定出所述字幕文本所對應音頻流時間軸區間的結束時刻。
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
根據字幕展示語種對所述字幕文本進行翻譯,得到翻譯后的字幕文本;
所述將所述字幕文本作為所對應音頻流時間軸區間的字幕,包括:
將所述翻譯后的字幕文本作為所對應音頻流時間軸區間的字幕。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910740405.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種消息顯示方法及裝置
- 下一篇:一種刷板植毛孔快速檢測裝置





