[發明專利]聯結主義時間分類和截斷式注意力聯合在線語音識別技術有效

申請號：	202010106791.1	申請日：	2020-02-20
公開（公告）號：	CN111179918B	公開（公告）日：	2022-10-14
發明（設計）人：	張鵬遠;繆浩然;程高峰;顏永紅	申請（專利權）人：	中國科學院聲學研究所;中科信利（廣州）技術有限公司
主分類號：	G10L15/06	分類號：	G10L15/06;G10L15/26;G10L15/28;G10L25/24;G10L25/30
代理公司：	北京億騰知識產權代理事務所(普通合伙) 11309	代理人：	陳霽
地址：	100190 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	聯結主義時間分類截斷注意力聯合在線語音識別技術
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種端對端語音在線語音識別方法，所述方法基于神經網絡模型，所述神經網絡模型由訓練所得，并包括編碼器、解碼器、注意力截斷網絡、聯結主義時間分類器，所述方法包括：

獲取待解碼的語音流，提取所述語音流的聲學特征流；

編碼器根據所述聲學特征流，得到編碼特征流；

獲取留存的漢字序列；將所述留存的漢字序列輸入解碼器，解碼器生成狀態序列；

根據所述狀態序列，以及編碼特征流，所述注意力截斷網絡截取有效的編碼特征；

根據所述有效的編碼特征，解碼器給出多個所述留存的漢字序列的后續一位預測漢字，每個所述預測漢字和留存的漢字序列構成一個新漢字序列，解碼器根據所述新漢字序列，得到第一預測評分；

對齊所述新漢字序列和所述編碼特征流，所述聯結主義時間分類器根據聯結主義時間分類準則對對齊后的新漢字序列進行估算，得到第二預測評分；

根據第一預測評分和第二預測評分，得到綜合預測評分，根據所述綜合預測評分，保留綜合預測評分最高的若干所述新漢字序列；

判斷所述新漢字序列是否包含終止符，

若不包含，

將其變為留存漢字序列，輸入解碼器，繼續后續漢字的預測；

若包含，

以所述綜合預測評分最高的所述新漢字序列做作為識別結果，并輸出。

2.根據權利要求1所述的方法，其中，所述對齊所述新漢字序列和所述語音包括，使用維特比算法對齊所述新漢字序列和所述語音。

3.根據權利要求1所述的方法，其中，所述獲取待解碼的語音流，提取所述語音流的聲學特征流；編碼器根據所述聲學特征流，得到編碼特征流；獲取留存的漢字序列；根據所述留存的漢字序列，以及編碼特征流，解碼器截取有效的語音片段；包括：

將待解碼的語音流對應的聲學特征序列X＝[x₁，x₂，...，x_t]輸入編碼器，實時地輸出新的特征序列H＝[h₁，h₂，...，h_t]；

同時將存留的漢字序列Y＝[sos，y₁，...，y_i-1]輸入解碼器，解碼器在依次處理存留的漢字序列中的每一個漢字后產生的最終狀態s_i-1，根據最終狀態s_i-1，從上一次截斷點τ_i-1開始依次向后計算H中每幀h_j的截斷概率,即j＝τ_i-1，τ_i-1+1，...，

其中，p_ij為在h_j幀的截斷概率，W_h和W_s是參數矩陣，b和v是參數向量，g和r是參數標量,sos表示起始符,

當概率第一次大于0.5時停止計算，并將當前j的值作為新的截斷點τ_i；

若在輸入的語音流中未能找到滿足條件的截斷點，則等待新的語音流輸入，直至找到滿足條件的截斷點；

對于解碼的初始狀態，存留的漢字序列為Y_init＝[sos],語音的截斷點為τ₀＝1。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;中科信利（廣州）技術有限公司，未經中國科學院聲學研究所;中科信利（廣州）技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010106791.1/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】