[發明專利]語音識別方法、裝置、介質及電子設備有效

申請號：	202010873809.0	申請日：	2020-08-26
公開（公告）號：	CN111968647B	公開（公告）日：	2021-11-12
發明（設計）人：	殷翔	申請（專利權）人：	北京字節跳動網絡技術有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L15/06;H04N21/4402
代理公司：	北京英創嘉友知識產權代理事務所(普通合伙) 11447	代理人：	賈會玲
地址：	100041 北京市石景山區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音識別方法裝置介質電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語音識別方法，其特征在于，包括：

獲取目標視頻數據，所述目標視頻數據包括目標音頻數據和目標圖像數據；

將所述目標音頻數據輸入至語音識別模型中，以得到所述目標音頻數據對應的第一文本數據；

將所述目標圖像數據輸入至描述信息生成模型中，以通過所述描述信息生成模型提取所述目標圖像數據的特征信息，并根據所述特征信息，生成用于描述所述目標圖像數據的第二文本數據；

根據所述第二文本數據，對所述第一文本數據進行修正，得到修正后的第一文本數據；

所述語音識別模型和所述描述信息生成模型通過如下方式訓練得到：

獲取第一參考文本數據；

通過將所述第一參考文本數據、所述語音識別模型的輸出以及所述描述信息生成模型的輸出作為語音合成模型的輸入，將所述語音合成模型的輸出作為所述語音識別模型的輸入，將所述第一參考文本數據作為所述語音識別模型的目標輸出，將所述第一參考文本數據、所述語音識別模型的輸出以及所述描述信息生成模型的輸出作為圖像生成模型的輸入，將所述圖像生成模型的輸出作為所述描述信息生成模型的輸入，將所述第一參考文本數據作為所述描述信息生成模型的目標輸出的方式進行模型訓練，以得到所述語音識別模型和所述描述信息生成模型。

2.根據權利要求1所述的方法，其特征在于，在進行模型訓練之前，所述方法還包括：

對所述語音識別模型和所述描述信息生成模型進行預訓練。

3.根據權利要求2所述的方法，其特征在于，所述對所述語音識別模型和所述描述信息生成模型進行預訓練，包括：

獲取第二參考文本數據；

通過將所述第二參考文本數據和所述語音識別模型的輸出作為所述語音合成模型的輸入，將所述語音合成模型的輸出作為所述語音識別模型的輸入，將所述第二參考文本數據作為所述語音識別模型的目標輸出的方式對所述語音識別模型進行預訓練；

通過將所述第二參考文本數據、所述描述信息生成模型的輸出以及預訓練后所得的語音識別模型的輸出作為所述圖像生成模型的輸入，將所述圖像生成模型的輸出作為所述描述信息生成模型的輸入，將所述第二參考文本數據作為所述描述信息生成模型的目標輸出的方式對所述描述信息生成模型進行預訓練。

4.根據權利要求2所述的方法，其特征在于，所述對所述語音識別模型和所述描述信息生成模型進行預訓練，包括：

獲取第二參考文本數據；

通過將所述第二參考文本數據和所述描述信息生成模型的輸出作為所述圖像生成模型的輸入，將所述圖像生成模型的輸出作為所述描述信息生成模型的輸入，將所述第二參考文本數據作為所述描述信息生成模型的目標輸出的方式對所述描述信息生成模型進行預訓練；

通過將所述第二參考文本數據、所述語音識別模型的輸出以及預訓練后所得的描述信息生成模型的輸出作為所述語音合成模型的輸入，將所述語音合成模型的輸出作為所述語音識別模型的輸入，將所述第二參考文本數據作為所述語音識別模型的目標輸出的方式對所述語音識別模型進行預訓練。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司，未經北京字節跳動網絡技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010873809.0/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】