[發(fā)明專利]流式語音識別結(jié)果顯示方法、裝置、電子設(shè)備和存儲介質(zhì)有效

申請?zhí)枺?/td>	202011295751.2	申請日：	2020-11-18
公開（公告）號：	CN112382278B	公開（公告）日：	2021-08-17
發(fā)明（設(shè)計）人：	邵俊堯;錢勝	申請（專利權(quán)）人：	北京百度網(wǎng)訊科技有限公司
主分類號：	G10L15/04	分類號：	G10L15/04;G10L15/22;G10L15/16
代理公司：	北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201	代理人：	韓海花
地址：	100085 北京市***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音識別結(jié)果顯示方法裝置電子設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種流式語音識別結(jié)果顯示方法，包括：

獲取輸入的音頻流的多個連續(xù)語音片段，將所述多個連續(xù)語音片段之中的目標語音片段的末尾處模擬成句尾，其中，所述句尾用于表示所述音頻流輸入結(jié)束；

在當前待識別語音片段為所述目標語音片段時，基于第一特征提取方式對所述當前待識別語音片段進行特征提取；

在當前待識別語音片段為非目標語音片段時，基于第二特征提取方式對所述當前待識別語音片段進行特征提取；

將對所述當前待識別語音片段提取得到的特征序列，輸入至流式多級的截斷注意力模型，獲得實時識別結(jié)果并顯示。

2.根據(jù)權(quán)利要求1所述的流式語音識別結(jié)果顯示方法，其中，所述將所述多個連續(xù)語音片段之中的目標語音片段的末尾處模擬成句尾，包括：

將所述多個連續(xù)語音片段之中的每個所述語音片段確定為所述目標語音片段；

將所述目標語音片段的末尾處模擬成句尾。

3.根據(jù)權(quán)利要求1所述的流式語音識別結(jié)果顯示方法，其中，所述將所述多個連續(xù)語音片段之中的目標語音片段的末尾處模擬成句尾，包括：

確定所述多個連續(xù)語音片段之中當前語音片段的末尾片段是否為無效片段，所述無效片段包含靜音數(shù)據(jù)；

如果所述當前語音片段的末尾片段為所述無效片段，則確定所述當前語音片段為所述目標語音片段；

將所述目標語音片段的末尾處模擬成句尾。

4.根據(jù)權(quán)利要求1所述的流式語音識別結(jié)果顯示方法，其中，所述流式多級的截斷注意力模型包括連接時序分類模塊和注意力解碼器；所述將對所述當前待識別語音片段提取得到的特征序列，輸入至流式多級的截斷注意力模型，獲得實時識別結(jié)果，包括：

基于所述連接時序分類模塊對所述特征序列進行連接時序分類處理，獲得與所述當前待識別語音片段有關(guān)的尖峰信息；

基于所述當前待識別語音片段和所述尖峰信息，通過所述注意力解碼器獲得所述實時識別結(jié)果。

5.根據(jù)權(quán)利要求1至4中任一項所述的流式語音識別結(jié)果顯示方法，在將所述當前待識別語音片段提取得到的特征序列，輸入至流式多級的截斷注意力模型之后，所述方法還包括：

對所述流式多級的截斷注意力模型的模型狀態(tài)進行存儲；

其中，當所述當前待識別語音片段為所述目標語音片段，且將下一個待識別語音片段的特征序列輸入至所述流式多級的截斷注意力模型時，所述方法還包括：

獲取基于所述流式多級的截斷注意力模型對所述目標語音片段進行語音識別時所存儲的模型狀態(tài)；

基于所述所存儲的模型狀態(tài)和下一個待識別語音片段的特征序列，通過所述流式多級的截斷注意力模型獲得針對所述下一個待識別語音片段的實時識別結(jié)果。

6.一種流式語音識別結(jié)果顯示裝置，包括：

第一獲取模塊，用于獲取輸入的音頻流的多個連續(xù)語音片段；

模擬模塊，用于將所述多個連續(xù)語音片段之中的目標語音片段的末尾處模擬成句尾，其中，所述句尾用于表示所述音頻流輸入結(jié)束；

特征提取模塊，用于在當前待識別語音片段為所述目標語音片段時，基于第一特征提取方式對所述當前待識別語音片段進行特征提取，并在當前待識別語音片段為非目標語音片段時，基于第二特征提取方式對所述當前待識別語音片段進行特征提取；

語音識別模塊，用于將對所述當前待識別語音片段提取得到的特征序列，輸入至流式多級的截斷注意力模型，獲得實時識別結(jié)果并顯示。

7.根據(jù)權(quán)利要求6所述的流式語音識別結(jié)果顯示裝置，其中，所述模擬模塊具體用于：

將所述多個連續(xù)語音片段之中的每個所述語音片段確定為所述目標語音片段；

將所述目標語音片段的末尾處模擬成句尾。

8.根據(jù)權(quán)利要求6所述的流式語音識別結(jié)果顯示裝置，其中，所述模擬模塊具體用于：

確定所述多個連續(xù)語音片段之中當前語音片段的末尾片段是否為無效片段，所述無效片段包含靜音數(shù)據(jù)；

如果所述當前語音片段的末尾片段為所述無效片段，則確定所述當前語音片段為所述目標語音片段；

將所述目標語音片段的末尾處模擬成句尾。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司，未經(jīng)北京百度網(wǎng)訊科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011295751.2/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：軌道板狀態(tài)確定方法及裝置
下一篇：可自由行走的自吸式水下漁網(wǎng)清洗裝置

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】