[發明專利]一種字幕糾正方法、字幕顯示方法、裝置、設備及介質有效

申請號：	202010881048.3	申請日：	2020-08-27
公開（公告）號：	CN111968649B	公開（公告）日：	2023-09-15
發明（設計）人：	陳小帥	申請（專利權）人：	騰訊科技（深圳）有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;H04N21/233;H04N21/235
代理公司：	廣州嘉權專利商標事務所有限公司 44205	代理人：	梁嘉琦
地址：	518000 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種字幕糾正方法顯示裝置設備介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種字幕糾正方法、字幕顯示方法、裝置、設備及介質，字幕糾正方法包括：獲取視頻數據中的音頻流數據和視頻畫面數據；對所述音頻流數據進行語音識別，得到第一字幕信息；對所述視頻畫面數據進行文本識別；根據所述文本識別的結果對所述第一字幕信息進行糾正，得到第二字幕信息。字幕顯示方法包括：獲取視頻數據以及第二字幕信息；在播放所述視頻數據時，顯示所述第二字幕信息。本發明基于對視頻畫面內容的文本識別來糾正語音識別到的字幕信息，能夠將涉及視頻畫面內容的字幕信息進行糾正，提升語音識別到的字幕與視頻內容之間的一致性，提高了字幕內容的準確性，有助于提高用戶的觀看體驗，可廣泛應用于互聯網技術領域。

技術領域

本發明涉及互聯網技術領域，尤其是一種字幕糾正方法、字幕顯示方法、裝置、設備及介質。

背景技術

隨著互聯網技術的不斷發展，視頻直播的應用也越來越廣泛，在直播視頻中顯示字幕已經成為提高用戶觀看體驗的重要手段。

在視頻直播中，一般是通過語音識別技術將視頻中播放的音頻內容進行文字轉換，然后將轉換得到的字幕內容展示在視頻下方，方便用戶觀看視頻。

但是，對于目前這種基于語音識別技術生成的字幕，字幕內容的準確性容易受到音頻質量的影響，例如在播放人物對話視頻時，由于視頻中的人物發音不夠準確，則會導致語音識別到的結果不準確。另外，字幕內容的準確性還受到同音字的影響，例如，當音頻內容中出現專業詞匯“池化處理”時，語音識別轉換得到的字幕為“赤化處理”，影響用戶的觀看體驗。

發明內容

有鑒于此，本發明實施例提供一種字幕糾正方法、字幕顯示方法、裝置、設備及介質，以提高字幕內容的準確性。

根據本發明的第一方面，提供了一種字幕糾正方法，包括：

獲取視頻數據中的音頻流數據和視頻畫面數據；

對所述音頻流數據進行語音識別，得到第一字幕信息；

對所述視頻畫面數據進行文本識別；

根據所述文本識別的結果對所述第一字幕信息進行糾正，得到第二字幕信息。

根據本發明的第二方面，提供了一種字幕顯示方法，包括：

獲取視頻數據以及第二字幕信息；

在播放所述視頻數據時，顯示所述第二字幕信息；

其中，所述第二字幕信息根據本發明第一方面所述的字幕糾正方法獲得。

根據本發明的第三方面，提供了一種字幕糾正裝置，包括：