[發明專利]一種字幕糾正方法、字幕顯示方法、裝置、設備及介質有效
| 申請號: | 202010881048.3 | 申請日: | 2020-08-27 |
| 公開(公告)號: | CN111968649B | 公開(公告)日: | 2023-09-15 |
| 發明(設計)人: | 陳小帥 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;H04N21/233;H04N21/235 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 梁嘉琦 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字幕 糾正 方法 顯示 裝置 設備 介質 | ||
本發明公開了一種字幕糾正方法、字幕顯示方法、裝置、設備及介質,字幕糾正方法包括:獲取視頻數據中的音頻流數據和視頻畫面數據;對所述音頻流數據進行語音識別,得到第一字幕信息;對所述視頻畫面數據進行文本識別;根據所述文本識別的結果對所述第一字幕信息進行糾正,得到第二字幕信息。字幕顯示方法包括:獲取視頻數據以及第二字幕信息;在播放所述視頻數據時,顯示所述第二字幕信息。本發明基于對視頻畫面內容的文本識別來糾正語音識別到的字幕信息,能夠將涉及視頻畫面內容的字幕信息進行糾正,提升語音識別到的字幕與視頻內容之間的一致性,提高了字幕內容的準確性,有助于提高用戶的觀看體驗,可廣泛應用于互聯網技術領域。
技術領域
本發明涉及互聯網技術領域,尤其是一種字幕糾正方法、字幕顯示方法、裝置、設備及介質。
背景技術
隨著互聯網技術的不斷發展,視頻直播的應用也越來越廣泛,在直播視頻中顯示字幕已經成為提高用戶觀看體驗的重要手段。
在視頻直播中,一般是通過語音識別技術將視頻中播放的音頻內容進行文字轉換,然后將轉換得到的字幕內容展示在視頻下方,方便用戶觀看視頻。
但是,對于目前這種基于語音識別技術生成的字幕,字幕內容的準確性容易受到音頻質量的影響,例如在播放人物對話視頻時,由于視頻中的人物發音不夠準確,則會導致語音識別到的結果不準確。另外,字幕內容的準確性還受到同音字的影響,例如,當音頻內容中出現專業詞匯“池化處理”時,語音識別轉換得到的字幕為“赤化處理”,影響用戶的觀看體驗。
發明內容
有鑒于此,本發明實施例提供一種字幕糾正方法、字幕顯示方法、裝置、設備及介質,以提高字幕內容的準確性。
根據本發明的第一方面,提供了一種字幕糾正方法,包括:
獲取視頻數據中的音頻流數據和視頻畫面數據;
對所述音頻流數據進行語音識別,得到第一字幕信息;
對所述視頻畫面數據進行文本識別;
根據所述文本識別的結果對所述第一字幕信息進行糾正,得到第二字幕信息。
根據本發明的第二方面,提供了一種字幕顯示方法,包括:
獲取視頻數據以及第二字幕信息;
在播放所述視頻數據時,顯示所述第二字幕信息;
其中,所述第二字幕信息根據本發明第一方面所述的字幕糾正方法獲得。
根據本發明的第三方面,提供了一種字幕糾正裝置,包括:
第一獲取模塊,用于獲取視頻數據中的音頻流數據和視頻畫面數據;
語音識別模塊,用于對所述音頻流數據進行語音識別,得到第一字幕信息;
文本識別模塊,用于對所述視頻畫面數據進行文本識別;
糾正模塊,用于根據所述文本識別的結果對所述第一字幕信息進行糾正,得到第二字幕信息。
根據本發明的第四方面,提供了一種字幕顯示裝置,包括:
第二獲取模塊,用于獲取視頻數據以及第二字幕信息;
顯示模塊,用于在播放所述視頻數據時,顯示所述第二字幕信息;
其中,所述第二字幕信息根據本發明第三方面中所述的字幕糾正裝置獲得。
根據本發明的第五方面,提供了一種電子設備,包括處理器以及存儲器;
所述存儲器用于存儲程序;
所述處理器執行所述程序實現如本發明第一方面或第二方面所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010881048.3/2.html,轉載請聲明來源鉆瓜專利網。





