[發明專利]聯結主義時間分類和截斷式注意力聯合在線語音識別技術有效
| 申請號: | 202010106791.1 | 申請日: | 2020-02-20 |
| 公開(公告)號: | CN111179918B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 張鵬遠;繆浩然;程高峰;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所;中科信利(廣州)技術有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/26;G10L15/28;G10L25/24;G10L25/30 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聯結 主義 時間 分類 截斷 注意力 聯合 在線 語音 識別 技術 | ||
1.一種端對端語音在線語音識別方法,所述方法基于神經網絡模型,所述神經網絡模型由訓練所得,并包括編碼器、解碼器、注意力截斷網絡、聯結主義時間分類器,所述方法包括:
獲取待解碼的語音流,提取所述語音流的聲學特征流;
編碼器根據所述聲學特征流,得到編碼特征流;
獲取留存的漢字序列;將所述留存的漢字序列輸入解碼器,解碼器生成狀態序列;
根據所述狀態序列,以及編碼特征流,所述注意力截斷網絡截取有效的編碼特征;
根據所述有效的編碼特征,解碼器給出多個所述留存的漢字序列的后續一位預測漢字,每個所述預測漢字和留存的漢字序列構成一個新漢字序列,解碼器根據所述新漢字序列,得到第一預測評分;
對齊所述新漢字序列和所述編碼特征流,所述聯結主義時間分類器根據聯結主義時間分類準則對對齊后的新漢字序列進行估算,得到第二預測評分;
根據第一預測評分和第二預測評分,得到綜合預測評分,根據所述綜合預測評分,保留綜合預測評分最高的若干所述新漢字序列;
判斷所述新漢字序列是否包含終止符,
若不包含,
將其變為留存漢字序列,輸入解碼器,繼續后續漢字的預測;
若包含,
以所述綜合預測評分最高的所述新漢字序列做作為識別結果,并輸出。
2.根據權利要求1所述的方法,其中,所述對齊所述新漢字序列和所述語音包括,使用維特比算法對齊所述新漢字序列和所述語音。
3.根據權利要求1所述的方法,其中,所述獲取待解碼的語音流,提取所述語音流的聲學特征流;編碼器根據所述聲學特征流,得到編碼特征流;獲取留存的漢字序列;根據所述留存的漢字序列,以及編碼特征流,解碼器截取有效的語音片段;包括:
將待解碼的語音流對應的聲學特征序列X=[x1,x2,...,xt]輸入編碼器,實時地輸出新的特征序列H=[h1,h2,...,ht];
同時將存留的漢字序列Y=[sos,y1,...,yi-1]輸入解碼器,解碼器在依次處理存留的漢字序列中的每一個漢字后產生的最終狀態si-1,根據最終狀態si-1,從上一次截斷點τi-1開始依次向后計算H中每幀hj的截斷概率,即j=τi-1,τi-1+1,...,
其中,pij為在hj幀的截斷概率,Wh和Ws是參數矩陣,b和v是參數向量,g和r是參數標量,sos表示起始符,
當概率第一次大于0.5時停止計算,并將當前j的值作為新的截斷點τi;
若在輸入的語音流中未能找到滿足條件的截斷點,則等待新的語音流輸入,直至找到滿足條件的截斷點;
對于解碼的初始狀態,存留的漢字序列為Yinit=[sos],語音的截斷點為τ0=1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;中科信利(廣州)技術有限公司,未經中國科學院聲學研究所;中科信利(廣州)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010106791.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種含有硅藻土的殺蟲組合物
- 下一篇:一種新型氣墊床





