[發明專利]一種字幕生成方法、裝置、設備及存儲介質有效

申請號：	202010719394.1	申請日：	2020-07-23
公開（公告）號：	CN111901538B	公開（公告）日：	2023-02-17
發明（設計）人：	曾衍;常為益;付平非;鄭起凡;林兆欽	申請（專利權）人：	北京字節跳動網絡技術有限公司
主分類號：	H04N5/278	分類號：	H04N5/278;H04N21/439;H04N21/488;H04N21/81
代理公司：	北京開陽星知識產權代理有限公司 11710	代理人：	王雪
地址：	100041 北京市石景山區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種字幕生成方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供了一種字幕生成方法、裝置、設備及存儲介質，所述方法包括：在接收到針對目標音視頻文件中至少一個音頻軌道的字幕生成觸發操作時，分別對該至少一個音頻軌道中的每個音頻軌道上的音頻數據進行語音識別，得到每個音頻軌道對應的文字片段。然后，基于每個音頻軌道對應的文字片段，生成目標音視頻文件的字幕。與針對所有音頻軌道上的音頻數據進行整體語音識別相比，本公開實施例針對每個音頻軌道上的音頻數據分別進行獨立的語音識別，避免了音頻軌道彼此之間的影響，能夠得到更準確的語音識別結果，進而提高了基于語音識別結果生成的字幕的準確性。

技術領域

本公開涉及數據處理領域，尤其涉及一種字幕生成方法、裝置、設備及存儲介質。

背景技術

為音視頻文件生成字幕，是指對音視頻文件進行語音識別，并將識別結果作為該音視頻文件的字幕。

目前，音視頻文件的字幕是針對音視頻文件中所有音頻軌道上的音頻數據進行整體語音識別后得到的識別結果。由于每個音頻軌道上的音頻數據彼此之間可能存在影響，例如在同一時間段，多個音頻軌道上可能均存在音頻數據，從聽覺感受角度而言，可能存在聽不清楚的問題，而如果針對該時間段的所有音頻軌道上的音頻數據進行整體識別，則可能存在識別不準確的問題，進而導致為音視頻文件生成的字幕也存在不準確的問題。

因此，如何提高為音視頻文件生成的字幕的準確性，是目前亟需解決的技術問題。

發明內容

為了解決上述技術問題或者至少部分地解決上述技術問題，本公開提供了一種字幕生成方法、裝置、設備及存儲介質，能夠提高為音視頻文件生成的字幕的準確性。

第一方面，本公開提供了一種字幕生成方法，所述方法包括：

響應于針對目標音視頻文件中至少一個音頻軌道的字幕生成觸發操作，分別對所述至少一個音頻軌道中每個音頻軌道上的音頻數據進行語音識別，得到每個音頻軌道對應的文字片段；

基于每個音頻軌道對應的文字片段，生成所述目標音視頻文件的字幕。

一種可選的實施方式中，所述文字片段具有開始顯示時間和結束顯示時間；基于每個音頻軌道對應的文字片段，生成所述目標音視頻文件的字幕，包括：

基于每個文字片段的所述開始顯示時間，對每個音頻軌道對應的文字片段進行綜合排序；

判斷綜合排序后的相鄰文字片段中前一個文字片段的結束顯示時間是否晚于后一個文字片段的開始顯示時間；

如果所述前一個文字片段的結束顯示時間晚于所述后一個文字片段的開始顯示時間，則對所述前一個文字片段進行顯示時間壓縮，以使所述前一個文字片段的結束顯示時間不晚于所述后一個文字片段的開始顯示時間；

基于時間軸對各個文字片段進行合并，生成所述目標音視頻文件的字幕。

一種可選的實施方式中，所述在所述基于時間軸對每個文字片段進行合并，生成所述目標音視頻文件的字幕之前，還包括：