[發明專利]使用動態可調監聽超時的自動語音識別有效

申請號：	201910350169.2	申請日：	2019-04-28
公開（公告）號：	CN110491414B	公開（公告）日：	2023-07-04
發明（設計）人：	G·塔瓦爾;K·R·布克	申請（專利權）人：	通用汽車環球科技運作有限責任公司
主分類號：	G10L25/30	分類號：	G10L25/30;G10L15/04;G10L15/22;G10L15/26
代理公司：	中國專利代理(香港)有限公司 72001	代理人：	王麗輝
地址：	美國密***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	使用動態可調監聽超時自動語音識別
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

一種使用動態可調監聽超時的自動語音識別系統和方法。該方法包括：在第一語音監聽時段期間接收表示第一語音段的語音信號；在第一語音監聽時段期間，處理接收到的表示第一語音段的語音信號，以確定第一語音段是否包括一個或多個無關緊要的話語；響應于確定第一語音段是否包括一個或多個無關緊要的話語，調整監聽超時；使用調整后的監聽超時監聽后續接收的語音；以及對接收的語音信號和/或后續接收的語音信號執行自動語音識別。

引言

本發明涉及語音識別，且更具體地，涉及根據當前檢測到的輸入語音的特征來調整語音輸入超時。

自動語音識別(ASR)系統可以從用戶獲得語音，然后使用語音識別技術來解釋語音以便做出響應。ASR系統可以通過在監聽時段期間啟用麥克風來接收來自用戶的語音來操作。接收聲波時，麥克風可以保持在激活狀態。然后，當停止接收聲波時，可以開始超時，并且當超時到期時，監聽時段結束。超時通常是靜態設置的。然而，某些用戶可能需要更多的時間說話，因此，使用靜態長度的超時周期并不適合不同用戶的語音變化。

發明內容

根據本發明的一個方面，提供了一種使用動態可調監聽超時的自動語音識別方法，其中該方法包括：在第一語音監聽時段期間接收表示第一語音段的語音信號；在第一語音監聽時段期間，處理接收到的表示第一語音段的語音信號，以確定第一語音段是否包括一個或多個無關緊要的話語；響應于確定第一語音段是否包括一個或多個無關緊要的話語，調整監聽超時；使用調整后的監聽超時監聽后續接收的語音；以及對接收的語音信號和/或后續接收的語音信號執行自動語音識別。

根據各種實施例，該方法可以進一步包括以下特征中的任何一個或者這些特征的任何技術上可行的組合：

其中所述處理步驟還包括確定所接收的語音信號是構成自然語言語音還是命令/控制語音；

所述處理步驟包括使用包括一個或多個隱藏層的神經網絡模型來確定接收到的語音信號是否包括一個或多個無關緊要的話語；

調整步驟還包括確定監聽超時被調整的程度的子步驟；

處理步驟還包括子步驟：響應于確定第一語音段包括一個或多個無關緊要的話語，基于無關緊要的話語的類型對一個或多個無關緊要的話語中的每一個進行分類；

一個或多個無關緊要的話語中的至少一個被分類為以下任何一種：口吃語音、填充語音或不可理解語音；

基于一個或多個無關緊要的話語的分類來執行對監聽超時調整程度的確定；

調整步驟包括當確定第一語音段包括一個或多個無關緊要的話語時，延長監聽超時的持續時間；

后續接收的語音信號表示第二語音段，并且其中后續接收的語音信號在第一語音監聽時段期間被接收；

在第一語音監聽時段期間接收表示第二語音段的后續接收的語音信號；

在處理步驟期間接收后續接收的語音信號；

表示第二語音段的后續接收的語音信號在第二語音監聽時段期間被接收，其中第二語音監聽時段發生在第一語音監聽時段之后；