[發(fā)明專利]一種語音識別的方法及其裝置有效
| 申請?zhí)枺?/td> | 201910132335.1 | 申請日: | 2019-02-22 |
| 公開(公告)號: | CN111613215B | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計)人: | 趙洲;李林琳;陳漠沙;仇偉;徐光偉;孟令濤 | 申請(專利權(quán))人: | 浙江大學 |
| 主分類號: | G10L15/19 | 分類號: | G10L15/19;G10L15/16;G10L15/06;G10L15/08 |
| 代理公司: | 廣州鑄智知識產(chǎn)權(quán)代理有限公司 44886 | 代理人: | 徐瑞紅 |
| 地址: | 310058 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 識別 方法 及其 裝置 | ||
本申請公開了一種語音識別的方法及其裝置,所述方法包括利用編碼器獲取與輸入的語音數(shù)據(jù)對應的概率分布向量序列;將所述概率分布向量序列輸入到語言模型組件,獲取語音識別信息,其中,所述語言模型組件至少包括基于前綴束搜索的CTC模型組件。利用本申請,可提高語音識別的準確性。
技術(shù)領(lǐng)域
本申請涉及計算機技術(shù)領(lǐng)域,尤其涉及一種語音識別的方法及其裝置。
背景技術(shù)
語音識別也被稱為自動語音識別(Automatic?Speech?Recognition,ASR),是指可通過識別和理解,將輸入的語音信號轉(zhuǎn)變?yōu)橄鄳奈淖只蛎钶敵觥kS著信息化社會的發(fā)展以及信息技術(shù)的進步,語音識別技術(shù)經(jīng)歷了從稚嫩到成熟的發(fā)展過程。
對于傳統(tǒng)的語音識別,通常會分為3個部分:語音模型、詞典、語言模型。語音模型和語言模型都是分開進行訓練的,因此這兩個模型優(yōu)化的損失函數(shù)是不相同的。為此提出了端到端的語音識別,模型的輸入就為語音特征(輸入端),而輸出為識別出的語音文本(輸出端),整個模型為神經(jīng)網(wǎng)絡(luò)的模型。但現(xiàn)如今,端對端的語音識別的準確度還需要提高,因為需要一種準確度更高的端對端的語音識別方法。
發(fā)明內(nèi)容
本申請實施例提供一種語音識別的方法及其裝置,旨在解決以上提到的準確度不高的技術(shù)問題。
本申請實施例提供一種利用編碼器獲取與輸入的語音數(shù)據(jù)對應的概率分布向量序列;將所述概率分布向量序列輸入到語言模型組件,獲取語音識別信息,其中,所述語言模型組件至少包括基于前綴束搜索的CTC模型組件。
本申請實施例還提供一種語音識別裝置,所述裝置包括:處理器;以及被安排成存儲計算機可執(zhí)行指令的存儲器,所述可執(zhí)行指令在被執(zhí)行時使所述處理器執(zhí)行上述方法。
本申請實施例采用的上述至少一個技術(shù)方案能夠達到以下有益效果:
根據(jù)本申請的示例性實施例的語音識別方法可利用基于前綴束搜索的CTC模型對獲取的概率分布向量序列進行解碼,從而獲取語音識別信息。
附圖說明
此處所說明的附圖用來提供對本申請的進一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當限定。在附圖中:
圖1是根據(jù)本申請的示例性實施例的語音識別方法的場景圖;
圖2是根據(jù)本申請的示例性實施例的語音識別方法的框架圖;
圖3是根據(jù)本申請的示例性實施例的語音識別方法的流程圖;
圖4是根據(jù)本申請的示例性實施例的語音識別方法的示圖;
圖5是根據(jù)本申請的示例性實施例的語音識別裝置的框圖。
具體實施方式
為使本申請的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本申請具體實施例及相應的附圖對本申請技術(shù)方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
以下結(jié)合附圖,詳細說明本申請各實施例提供的技術(shù)方案。
圖1是根據(jù)本申請的示例性實施例的語音識別方法的場景圖。
如圖1所述,用戶根據(jù)自身情況發(fā)出語音,隨后,該語音可被電子終端100接收到,例如,用戶可利用移動終端的麥克風向移動終端輸入語音信息,隨后,移動終端可將接收到的語音信息進行處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學,未經(jīng)浙江大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910132335.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





