[發明專利]語音識別的方法、裝置、電子設備和計算機可讀介質有效
| 申請號: | 202010512892.9 | 申請日: | 2020-06-08 |
| 公開(公告)號: | CN111681661B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 蔡猛;梁鎮麟 | 申請(專利權)人: | 北京有竹居網絡技術有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/183;G10L15/06;G10L15/02 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 車英慧 |
| 地址: | 101200 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 電子設備 計算機 可讀 介質 | ||
1.一種語音識別的方法,包括:
針對目標語音的語音幀序列中的每個語音幀,生成所述語音幀的音節概率集合,得到音節概率集合序列,其中,所述音節概率集合用于表征所述語音幀表達的是預設的多個音節中各個音節的概率;
針對所述音節概率集合序列中的每個音節概率集合,從所述音節概率集合中選出符合預定條件的音節概率,得到音節概率子集合,得到音節概率子集合序列;
基于所述音節概率子集合序列和剪枝算法,生成多條路徑和多條路徑對應的分數,其中,所述路徑是包含多個音節的序列,所述分數是所述序列中多個音節概率的乘積;
獲取目標字典,基于所述多條路徑、所述多條路徑對應的分數、所述目標字典和預先訓練的語言模型,得到目標文字。
2.根據權利要求1所述的方法,其中,所述針對目標語音的語音幀序列中的每個語音幀,生成所述語音幀的音節概率集合,得到音節概率集合序列,包括:
針對所述目標語音的語音幀序列中的每個語音幀,將所述語音幀輸入預先訓練的循環神經網絡轉換器RNNT,生成所述語音幀的音節概率集合。
3.根據權利要求2所述的方法,其中,所述針對所述音節概率集合序列中的每個音節概率集合,從所述音節概率集合中選出符合預定條件的音節概率,得到音節概率子集合,包括:
基于貪心搜索算法,選擇預定數目個音節概率,得到音節概率子集合。
4.根據權利要求1-3之一所述的方法,其中,所述預先訓練的語言模型包括n-gram語言模型。
5.一種語音識別的裝置,包括:
第一生成單元,被配置成針對目標語音的語音幀序列中的每個語音幀,生成所述語音幀的音節概率集合,得到音節概率集合序列,其中,所述音節概率集合用于表征所述語音幀表達的是預設的多個音節中各個音節的概率;
第二生成單元,被配置成針對所述音節概率集合序列中的每個音節概率集合,從所述音節概率集合中選出符合預定條件的音節概率,得到音節概率子集合,得到音節概率子集合序列;
基于所述音節概率子集合序列和剪枝算法,生成多條路徑和多條路徑對應的分數,其中,所述路徑是包含多個音節的序列,所述分數是所述序列中多個音節概率的乘積;
獲取目標字典,基于所述多條路徑、所述多條路徑對應的分數、所述目標字典和預先訓練的語言模型,得到目標文字。
6.一種電子設備,包括:
一個或多個處理器;
存儲裝置,其上存儲有一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-4中任一所述的方法。
7.一種計算機可讀介質,其上存儲有計算機程序,其中,所述程序被處理器執行時實現如權利要求1-4中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網絡技術有限公司,未經北京有竹居網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010512892.9/1.html,轉載請聲明來源鉆瓜專利網。





