[發(fā)明專利]語音處理方法、裝置、設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	202011634031.4	申請日：	2020-12-31
公開（公告）號：	CN112735392A	公開（公告）日：	2021-04-30
發(fā)明（設(shè)計）人：	吳明輝;方昕;劉俊華	申請（專利權(quán)）人：	科大訊飛股份有限公司
主分類號：	G10L15/14	分類號：	G10L15/14;G10L15/26;G10L19/00;G10L25/51
代理公司：	北京集佳知識產(chǎn)權(quán)代理有限公司 11227	代理人：	張靜
地址：	230088 安徽***	國省代碼：	安徽;34
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音處理方法裝置設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例公開了一種語音處理方法、裝置、設(shè)備及存儲介質(zhì)，通過對用于解碼文本單元的權(quán)重序列進(jìn)行改進(jìn)，使得每一文本單元對應(yīng)的權(quán)重序列與各語音幀的時間信息的關(guān)聯(lián)關(guān)系趨近于目標(biāo)函數(shù)關(guān)系，由于每一文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系表示，該文本單元與各個語音幀的時間信息的關(guān)聯(lián)度，與各個語音幀的時間信息間的關(guān)聯(lián)關(guān)系，這就使得，利用權(quán)重序列進(jìn)行解碼得到的文本單元與語音幀的時間信息是強相關(guān)的，因此，利用各個語音幀的時間信息，以及各文本單元對應(yīng)的目標(biāo)函數(shù)能夠準(zhǔn)確實現(xiàn)語音幀的時間信息與文本單元的對應(yīng)關(guān)系，也就是將語音幀的時間信息與文本單元準(zhǔn)確對齊，從而提高了將語音識別結(jié)果與音頻對齊的準(zhǔn)確率。

技術(shù)領(lǐng)域

本申請涉及語音處理技術(shù)領(lǐng)域，更具體地說，涉及一種語音處理方法、裝置、設(shè)備及存儲介質(zhì)。

背景技術(shù)

在語音識別任務(wù)中，端到端建模方法具有聲學(xué)和語言聯(lián)合建模的優(yōu)點，理論上的潛力很大。但端到端語音識別任務(wù)摒棄了傳統(tǒng)語音識別的時序解碼方式，采用自回歸遞推方式解碼，使得最終只能獲取到對音頻進(jìn)行語音識別的語音識別結(jié)果，而無法將語音識別結(jié)果與音頻對齊，即無法獲取語音識別結(jié)果中的各個字或詞在音頻中的位置。

為了使得端到端語音識別任務(wù)也能夠?qū)⒄Z音識別結(jié)果與音頻對齊，有方案提出基于端到端語音識別任務(wù)中的各個語音幀對文字結(jié)果中的字或詞的注意力權(quán)重來將語音識別結(jié)果與語音信號的時間邊界信息對齊，但基于目前的方法得到對齊結(jié)果的錯誤率較高。

因此，如何提高將語音識別結(jié)果與音頻對齊的準(zhǔn)確率成為亟待解決的技術(shù)問題。

發(fā)明內(nèi)容

有鑒于此，本申請?zhí)峁┝艘环N語音處理方法、裝置、設(shè)備及存儲介質(zhì)，以提高將語音識別結(jié)果與音頻對齊的準(zhǔn)確率。

為了實現(xiàn)上述目的，現(xiàn)提出的方案如下：

一種語音處理方法，包括：

對待識別的語音數(shù)據(jù)的各個語音幀進(jìn)行編碼，得到各個語音幀的編碼結(jié)果；

利用所述各個語音幀的編碼結(jié)果，獲取與待解碼的每一個文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系和用于解碼得到該文本單元的權(quán)重序列；每一個文本單元對應(yīng)的權(quán)重序列表示該文本單元與每一語音幀的關(guān)聯(lián)度；每一個文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系用于表示：該文本單元與各個語音幀的時間信息的關(guān)聯(lián)度，與各個語音幀的時間信息間的關(guān)聯(lián)關(guān)系；每一個文本單元對應(yīng)的權(quán)重序列與所述各個語音幀的時間信息的關(guān)聯(lián)關(guān)系趨近于該文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系；

在基于各個文本單元對應(yīng)的權(quán)重序列解碼得到所有的文本單元后，利用所述各個語音幀的時間信息，以及各個文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系，確定各語音幀的時間信息與文本單元的對應(yīng)關(guān)系。

上述方法，優(yōu)選的，所述利用各個語音幀的時間信息，以及各個文本單元對應(yīng)的目標(biāo)函數(shù)關(guān)系，確定各個語音幀的時間信息與文本單元的對應(yīng)關(guān)系，包括：

對于每一個語音幀，將該語音幀的時間信息輸入各個目標(biāo)函數(shù)關(guān)系，得到各個目標(biāo)函數(shù)關(guān)系輸出的關(guān)聯(lián)度，每一個目標(biāo)函數(shù)關(guān)系輸出的關(guān)聯(lián)度為該語音幀的時間信息與該目標(biāo)函數(shù)對應(yīng)的文本單元的關(guān)聯(lián)度；

基于各個語音幀的時間信息與每一個文本單元的關(guān)聯(lián)度，確定語音幀的時間信息與文本單元的對應(yīng)關(guān)系。

上述方法，優(yōu)選的，所述基于各個語音幀的時間信息與每一個文本單元的關(guān)聯(lián)度，確定語音幀的時間信息與文本單元的對應(yīng)關(guān)系，包括：

根據(jù)各個語音幀的時間信息與每一個文本單元的關(guān)聯(lián)度構(gòu)建概率圖模型；所述概率圖模型中每個狀態(tài)節(jié)點對應(yīng)一個語音幀和一個文本單元，每個狀態(tài)節(jié)點的發(fā)射概率為該狀態(tài)節(jié)點對應(yīng)的語音幀的時間信息和文本單元的關(guān)聯(lián)度；不同狀態(tài)節(jié)點對應(yīng)不同語音幀的時間信息和/或不同文本單元；

利用所述概率圖模型確定語音幀的時間信息與文本單元的對應(yīng)關(guān)系。

上述方法，優(yōu)選的，所述概率圖模型為隱馬爾科夫模型或條件隨機場模型。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大訊飛股份有限公司，未經(jīng)科大訊飛股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011634031.4/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點擊【登陸】【注冊】