[發(fā)明專利]語音處理方法、裝置、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011634031.4 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112735392A | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計)人: | 吳明輝;方昕;劉俊華 | 申請(專利權(quán))人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/26;G10L19/00;G10L25/51 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 張靜 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 處理 方法 裝置 設(shè)備 存儲 介質(zhì) | ||
本申請實施例公開了一種語音處理方法、裝置、設(shè)備及存儲介質(zhì),通過對用于解碼文本單元的權(quán)重序列進(jìn)行改進(jìn),使得每一文本單元對應(yīng)的權(quán)重序列與各語音幀的時間信息的關(guān)聯(lián)關(guān)系趨近于目標(biāo)函數(shù)關(guān)系,由于每一文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系表示,該文本單元與各個語音幀的時間信息的關(guān)聯(lián)度,與各個語音幀的時間信息間的關(guān)聯(lián)關(guān)系,這就使得,利用權(quán)重序列進(jìn)行解碼得到的文本單元與語音幀的時間信息是強相關(guān)的,因此,利用各個語音幀的時間信息,以及各文本單元對應(yīng)的目標(biāo)函數(shù)能夠準(zhǔn)確實現(xiàn)語音幀的時間信息與文本單元的對應(yīng)關(guān)系,也就是將語音幀的時間信息與文本單元準(zhǔn)確對齊,從而提高了將語音識別結(jié)果與音頻對齊的準(zhǔn)確率。
技術(shù)領(lǐng)域
本申請涉及語音處理技術(shù)領(lǐng)域,更具體地說,涉及一種語音處理方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù)
在語音識別任務(wù)中,端到端建模方法具有聲學(xué)和語言聯(lián)合建模的優(yōu)點,理論上的潛力很大。但端到端語音識別任務(wù)摒棄了傳統(tǒng)語音識別的時序解碼方式,采用自回歸遞推方式解碼,使得最終只能獲取到對音頻進(jìn)行語音識別的語音識別結(jié)果,而無法將語音識別結(jié)果與音頻對齊,即無法獲取語音識別結(jié)果中的各個字或詞在音頻中的位置。
為了使得端到端語音識別任務(wù)也能夠?qū)⒄Z音識別結(jié)果與音頻對齊,有方案提出基于端到端語音識別任務(wù)中的各個語音幀對文字結(jié)果中的字或詞的注意力權(quán)重來將語音識別結(jié)果與語音信號的時間邊界信息對齊,但基于目前的方法得到對齊結(jié)果的錯誤率較高。
因此,如何提高將語音識別結(jié)果與音頻對齊的準(zhǔn)確率成為亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
有鑒于此,本申請?zhí)峁┝艘环N語音處理方法、裝置、設(shè)備及存儲介質(zhì),以提高將語音識別結(jié)果與音頻對齊的準(zhǔn)確率。
為了實現(xiàn)上述目的,現(xiàn)提出的方案如下:
一種語音處理方法,包括:
對待識別的語音數(shù)據(jù)的各個語音幀進(jìn)行編碼,得到各個語音幀的編碼結(jié)果;
利用所述各個語音幀的編碼結(jié)果,獲取與待解碼的每一個文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系和用于解碼得到該文本單元的權(quán)重序列;每一個文本單元對應(yīng)的權(quán)重序列表示該文本單元與每一語音幀的關(guān)聯(lián)度;每一個文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系用于表示:該文本單元與各個語音幀的時間信息的關(guān)聯(lián)度,與各個語音幀的時間信息間的關(guān)聯(lián)關(guān)系;每一個文本單元對應(yīng)的權(quán)重序列與所述各個語音幀的時間信息的關(guān)聯(lián)關(guān)系趨近于該文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系;
在基于各個文本單元對應(yīng)的權(quán)重序列解碼得到所有的文本單元后,利用所述各個語音幀的時間信息,以及各個文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系,確定各語音幀的時間信息與文本單元的對應(yīng)關(guān)系。
上述方法,優(yōu)選的,所述利用各個語音幀的時間信息,以及各個文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系,確定各個語音幀的時間信息與文本單元的對應(yīng)關(guān)系,包括:
對于每一個語音幀,將該語音幀的時間信息輸入各個目標(biāo)函數(shù)關(guān)系,得到各個目標(biāo)函數(shù)關(guān)系輸出的關(guān)聯(lián)度,每一個目標(biāo)函數(shù)關(guān)系輸出的關(guān)聯(lián)度為該語音幀的時間信息與該目標(biāo)函數(shù)對應(yīng)的文本單元的關(guān)聯(lián)度;
基于各個語音幀的時間信息與每一個文本單元的關(guān)聯(lián)度,確定語音幀的時間信息與文本單元的對應(yīng)關(guān)系。
上述方法,優(yōu)選的,所述基于各個語音幀的時間信息與每一個文本單元的關(guān)聯(lián)度,確定語音幀的時間信息與文本單元的對應(yīng)關(guān)系,包括:
根據(jù)各個語音幀的時間信息與每一個文本單元的關(guān)聯(lián)度構(gòu)建概率圖模型;所述概率圖模型中每個狀態(tài)節(jié)點對應(yīng)一個語音幀和一個文本單元,每個狀態(tài)節(jié)點的發(fā)射概率為該狀態(tài)節(jié)點對應(yīng)的語音幀的時間信息和文本單元的關(guān)聯(lián)度;不同狀態(tài)節(jié)點對應(yīng)不同語音幀的時間信息和/或不同文本單元;
利用所述概率圖模型確定語音幀的時間信息與文本單元的對應(yīng)關(guān)系。
上述方法,優(yōu)選的,所述概率圖模型為隱馬爾科夫模型或條件隨機場模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司,未經(jīng)科大訊飛股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011634031.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





