[發明專利]一種詞邊界估計方法、裝置及電子設備在審
| 申請號: | 201910832104.1 | 申請日: | 2019-09-04 |
| 公開(公告)號: | CN112447169A | 公開(公告)日: | 2021-03-05 |
| 發明(設計)人: | 陳孝良;王江;馮大航;常樂 | 申請(專利權)人: | 北京聲智科技有限公司 |
| 主分類號: | G10L15/05 | 分類號: | G10L15/05;G10L15/02;G10L15/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 趙煥 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 邊界 估計 方法 裝置 電子設備 | ||
本發明提供一種詞邊界估計方法、裝置及電子設備,獲取待進行語音識別的語音數據;對所述語音數據分幀,并提取每一幀語音的聲學特征;對于每一幀語音,計算所述聲學特征在各聲學建模單元上的后驗概率;基于所述后驗概率,在WFST模型中搜索,得到所述語音數據的識別結果及識別結果中每一詞的詞尾時間邊界。即通過本發明,可以實現對語音識別過程中的每個詞添加時間邊界信息。
技術領域
本發明涉及語音識別領域,更具體的說,涉及一種詞邊界估計方法、裝置及電子設備。
背景技術
語音識別中的詞邊界估計,屬于語音識別技術領域。對于一段給定的語音信號,我們可以通過語音識別技術得到對應的文本信息。
但是在一些特定場景下,需要在識別的過程中,對每個詞添加準確的時間邊界信息。比如,客服場景中,我們通過語音識別技術轉錄的文本中發現客服人員說了一些不文明的言語詞匯,此時可以根據為詞添加的時間邊界信息快速定位到對應詞在錄音中的位置。
發明內容
有鑒于此,本發明提供一種詞邊界估計方法、裝置及電子設備,以解決亟需對語音識別過程中的每個詞添加時間邊界信息的問題。
為解決上述技術問題,本發明采用了如下技術方案:
一種詞邊界估計方法,包括:
獲取待進行語音識別的語音數據;
對所述語音數據分幀,并提取每一幀語音的聲學特征;
對于每一幀語音,計算所述聲學特征在各聲學建模單元上的后驗概率;
基于所述后驗概率,在WFST模型中搜索,得到所述語音數據的識別結果及識別結果中每一詞的詞尾時間邊界;所述詞尾時間邊界基于空邊確定;所述空邊輸出為空。
可選地,基于所述后驗概率,在WFST模型中搜索,得到所述語音數據的識別結果及識別結果中每一詞的詞尾時間邊界,包括:
獲取所述WFST模型中的WFST優化模型;所述WFST優化模型識別出所述語音數據中的詞語的結尾時間與實際結尾時間不一致;
在WFST優化模型搜索過程中,將當前詞語的WFST輸出保存在令牌中;所述令牌包括:輸出詞以及輸出詞的時間信息;
判斷是否確定出當前詞語的詞尾時間邊界;
若確定出當前詞語的詞尾時間邊界,更新所述令牌中保存的內容。
可選地,所述確定出當前詞語的詞尾時間邊界,包括:
獲取緊鄰當前詞語輸出的一組空邊;
將一組所述空邊中最后一個輸出為空的邊對應的所述令牌中的時間信息的末尾時間作為所述當前詞語的詞尾時間邊界。
可選地,基于所述后驗概率,在WFST優化模型中搜索,得到所述語音數據的識別結果及識別結果中每一詞的詞尾時間邊界,還包括:
判斷是否確定出識別結果中每一詞的詞尾時間邊界;
若否,返回執行所述在WFST優化模型搜索過程中,將當前詞語的WFST輸出保存在令牌中這一步驟。
可選地,若判斷出已確定出所述語音數據的識別結果中每一詞的詞尾時間邊界之后,還包括:
選取當前時刻所有令牌中代價最小的令牌中的輸出結果作為所述語音數據的語音識別結果;所述語音識別結果包括:所述語音數據的識別結果及識別結果中每一詞的詞尾時間邊界。
可選地,所述空邊的輸入為空。
可選地,基于所述后驗概率,在WFST模型中搜索,得到所述語音數據的識別結果及識別結果中每一詞的詞尾時間邊界,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京聲智科技有限公司,未經北京聲智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910832104.1/2.html,轉載請聲明來源鉆瓜專利網。





