[發明專利]語音識別方法、裝置、介質及電子設備有效
| 申請號: | 202010873809.0 | 申請日: | 2020-08-26 |
| 公開(公告)號: | CN111968647B | 公開(公告)日: | 2021-11-12 |
| 發明(設計)人: | 殷翔 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/06;H04N21/4402 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 賈會玲 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 介質 電子設備 | ||
本公開涉及一種語音識別方法、裝置、介質及電子設備。方法包括:獲取目標視頻數據,所述目標視頻數據包括目標音頻數據和目標圖像數據;提取所述目標音頻數據對應的第一文本數據;提取所述目標圖像數據的特征信息,并根據所述特征信息,生成用于描述所述目標圖像數據的第二文本數據;根據所述第二文本數據,對所述第一文本數據進行修正,得到修正后的第一文本數據。由此,可以避免因目標視頻數據中雜音或者背景音樂對語音識別準確度的影響,從而提升了目標音頻數據對應的文本內容的準確度。
技術領域
本公開涉及語音識別領域,具體地,涉及一種語音識別方法、裝置、介質及電子設備。
背景技術
隨著人工智能技術的發展,語音識別(Automatic Speech Recognition,ASR)技術取得了巨大的進步,并開始進入家電、通信、汽車、醫療等各個領域。其中,ASR技術常用于獲取視頻中音頻對應的文本內容。但當視頻中有雜音或者背景音樂時,ASR的識別準確度將受到影響。
發明內容
提供該發明內容部分以便以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。該發明內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
第一方面,本公開提供一種語音識別方法,包括:
獲取目標視頻數據,所述目標視頻數據包括目標音頻數據和目標圖像數據;
提取所述目標音頻數據對應的第一文本數據;
提取所述目標圖像數據的特征信息,并根據所述特征信息,生成用于描述所述目標圖像數據的第二文本數據;
根據所述第二文本數據,對所述第一文本數據進行修正,得到修正后的第一文本數據。
第二方面,本公開提供一種語音識別裝置,包括:
獲取模塊,用于獲取目標視頻數據,所述目標視頻數據包括目標音頻數據和目標圖像數據;
第一提取模塊,用于提取所述獲取模塊獲取到的所述目標音頻數據對應的第一文本數據;
第二提取模塊,用于提取所述獲取模塊獲取到的所述目標圖像數據的特征信息,并根據所述特征信息,生成用于描述所述目標圖像數據的第二文本數據;
修正模塊,用于根據所述第二提取模塊提取到的所述第二文本數據,對所述第一提取模塊提取到的所述第一文本數據進行修正,得到修正后的第一文本數據。
第三方面,本公開提供一種計算機可讀介質,其上存儲有計算機程序,該程序被處理裝置執行時實現本公開第一方面提供的所述方法的步驟。
第四方面,本公開提供一種電子設備,包括:
存儲裝置,其上存儲有計算機程序;
處理裝置,用于執行所述存儲裝置中的所述計算機程序,以實現本公開第一方面提供的所述方法的步驟。
在上述技術方案中,當目標視頻數據中存在雜音或者背景音樂時,可能導致提取到的目標視頻數據中目標音頻數據對應的第一文本數據不準確,因此,在提取到第一文本數據后,并不直接將其作為語音識別結果,而是通過用于描述目標視頻數據中目標圖像數據的第二文本數據對其進行修正,并將修正后的第一文本數據作為語音識別結果。由此,可以避免因目標視頻數據中雜音或者背景音樂對語音識別準確度的影響,從而提升了目標音頻數據對應的文本內容的準確度。
本公開的其他特征和優點將在隨后的具體實施方式部分予以詳細說明。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010873809.0/2.html,轉載請聲明來源鉆瓜專利網。





