[發明專利]一種字幕生成方法、裝置、設備及存儲介質有效
| 申請號: | 202010719394.1 | 申請日: | 2020-07-23 |
| 公開(公告)號: | CN111901538B | 公開(公告)日: | 2023-02-17 |
| 發明(設計)人: | 曾衍;常為益;付平非;鄭起凡;林兆欽 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | H04N5/278 | 分類號: | H04N5/278;H04N21/439;H04N21/488;H04N21/81 |
| 代理公司: | 北京開陽星知識產權代理有限公司 11710 | 代理人: | 王雪 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字幕 生成 方法 裝置 設備 存儲 介質 | ||
本公開提供了一種字幕生成方法、裝置、設備及存儲介質,所述方法包括:在接收到針對目標音視頻文件中至少一個音頻軌道的字幕生成觸發操作時,分別對該至少一個音頻軌道中的每個音頻軌道上的音頻數據進行語音識別,得到每個音頻軌道對應的文字片段。然后,基于每個音頻軌道對應的文字片段,生成目標音視頻文件的字幕。與針對所有音頻軌道上的音頻數據進行整體語音識別相比,本公開實施例針對每個音頻軌道上的音頻數據分別進行獨立的語音識別,避免了音頻軌道彼此之間的影響,能夠得到更準確的語音識別結果,進而提高了基于語音識別結果生成的字幕的準確性。
技術領域
本公開涉及數據處理領域,尤其涉及一種字幕生成方法、裝置、設備及存儲介質。
背景技術
為音視頻文件生成字幕,是指對音視頻文件進行語音識別,并將識別結果作為該音視頻文件的字幕。
目前,音視頻文件的字幕是針對音視頻文件中所有音頻軌道上的音頻數據進行整體語音識別后得到的識別結果。由于每個音頻軌道上的音頻數據彼此之間可能存在影響,例如在同一時間段,多個音頻軌道上可能均存在音頻數據,從聽覺感受角度而言,可能存在聽不清楚的問題,而如果針對該時間段的所有音頻軌道上的音頻數據進行整體識別,則可能存在識別不準確的問題,進而導致為音視頻文件生成的字幕也存在不準確的問題。
因此,如何提高為音視頻文件生成的字幕的準確性,是目前亟需解決的技術問題。
發明內容
為了解決上述技術問題或者至少部分地解決上述技術問題,本公開提供了一種字幕生成方法、裝置、設備及存儲介質,能夠提高為音視頻文件生成的字幕的準確性。
第一方面,本公開提供了一種字幕生成方法,所述方法包括:
響應于針對目標音視頻文件中至少一個音頻軌道的字幕生成觸發操作,分別對所述至少一個音頻軌道中每個音頻軌道上的音頻數據進行語音識別,得到每個音頻軌道對應的文字片段;
基于每個音頻軌道對應的文字片段,生成所述目標音視頻文件的字幕。
一種可選的實施方式中,所述文字片段具有開始顯示時間和結束顯示時間;基于每個音頻軌道對應的文字片段,生成所述目標音視頻文件的字幕,包括:
基于每個文字片段的所述開始顯示時間,對每個音頻軌道對應的文字片段進行綜合排序;
判斷綜合排序后的相鄰文字片段中前一個文字片段的結束顯示時間是否晚于后一個文字片段的開始顯示時間;
如果所述前一個文字片段的結束顯示時間晚于所述后一個文字片段的開始顯示時間,則對所述前一個文字片段進行顯示時間壓縮,以使所述前一個文字片段的結束顯示時間不晚于所述后一個文字片段的開始顯示時間;
基于時間軸對各個文字片段進行合并,生成所述目標音視頻文件的字幕。
一種可選的實施方式中,所述在所述基于時間軸對每個文字片段進行合并,生成所述目標音視頻文件的字幕之前,還包括:
確定所述開始顯示時間相同的文字片段中,所述結束顯示時間最晚的文字片段;
將所述開始顯示時間相同的文字片段中,除所述結束顯示時間最晚的文字片段之外的其他文字片段刪除。
一種可選的實施方式中,所述方法還包括:
響應于針對所述字幕的調整操作,對所述字幕進行更新;其中,所述調整操作包括增加操作、刪除操作或修改操作。
一種可選的實施方式中,所述基于每個音頻軌道對應的文字片段,生成所述目標音視頻文件的字幕之后,還包括:
基于所述目標音視頻文件的變速播放倍數,對所述目標音視頻文件的字幕進行顯示時間壓縮。
第二方面,本公開提供了一種字幕生成裝置,所述裝置包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010719394.1/2.html,轉載請聲明來源鉆瓜專利網。





