[發明專利]不中斷回放音頻而進行語音識別在審
| 申請號: | 201711292146.8 | 申請日: | 2017-12-08 |
| 公開(公告)號: | CN108231071A | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 桑迪普·拉杰·甘迪迦 | 申請(專利權)人: | 福特全球技術公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/26 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 張濤 |
| 地址: | 美國密歇根州迪爾*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 捕獲 過濾 音頻數據 回放 配置 語音識別部件 過濾器部件 捕獲部件 音頻部件 緩沖 渲染 播放音頻數據 多個揚聲器 方法和設備 麥克風 語音識別 去除 文本 語音 中斷 | ||
本文公開了用于捕獲來自用戶的語音輸入的系統、方法和設備。一種系統包括回放音頻部件、音頻渲染部件、捕獲部件、過濾器部件以及語音識別部件。回放音頻部件被配置為緩沖用于聲音的產生的音頻數據。音頻渲染部件被配置為在一個或多個揚聲器上播放音頻數據。捕獲部件被配置為使用麥克風捕獲音頻(捕獲的音頻)。過濾器部件被配置為過濾捕獲的音頻以生成過濾的音頻,其中過濾包括使用緩沖的音頻數據進行過濾,以從捕獲的音頻中去除與音頻數據相對應的音頻。語音識別部件被配置為基于過濾的音頻生成文本或命令。
技術領域
本公開總體上涉及用于語音識別的方法、系統和裝置,并且更具體地,涉及不中斷回放音頻而進行語音識別。
背景技術
語音識別允許用戶說出的語音命令被計算系統或其他電子設備解釋。例如,語音命令可以被移動電話、移動計算設備、車輛裝在儀表板上的計算系統等識別和解釋。基于語音命令,系統可以執行或啟動指令或過程。
發明內容
根據本發明,提供一種用于捕獲來自用戶的語音輸入的方法,所述方法包括:
緩沖用于聲音的產生的音頻數據;
在一個或多個揚聲器上播放音頻數據;
使用麥克風捕獲音頻(捕獲的音頻);
過濾捕獲的音頻以產生過濾的音頻,其中過濾包括使用緩沖的音頻數據進行過濾以從過濾的音頻中去除對應于音頻數據的音頻;以及
基于過濾的音頻生成文本或命令。
根據本發明的一個實施例,其中使用麥克風捕獲捕獲的音頻包括在一個或一個以上揚聲器上播放音頻數據期間捕獲。
根據本發明的一個實施例,該方法還包括確定是否正在播放任何音頻數據,其中緩沖音頻數據包括響應于確定音頻數據正在被播放而進行緩沖。
根據本發明的一個實施例,該方法還包括確定播放音頻數據的定時。
根據本發明的一個實施例,其中使用緩沖的音頻數據來過濾捕獲的音頻包括基于用于播放音頻數據的定時來過濾。
根據本發明的一個實施例,其中緩沖用于聲音的產生的音頻數據包括在從原始音頻緩沖器移除之前從原始音頻緩沖器捕獲音頻數據,其中在一個或多個揚聲器上播放之前將音頻數據放置在原始音頻緩沖器中。
根據本發明的一個實施例,其中音頻數據包括音樂、對應于視頻的音頻、通知聲音和語音指令。
根據本發明的一個實施例,該方法還包括基于文本或命令來確定計算設備或受控系統要執行的動作。
根據本發明的一個實施例,該方法還包括接收指示以激活語音識別,其中緩沖音頻數據、捕獲音頻、過濾捕獲的音頻以及執行語音到文本轉換包括響應于接收指示而進行緩沖、捕獲、過濾和執行。
根據本發明,提供一種系統,該系統包括:
回放音頻部件,回放音頻部件被配置為緩沖用于聲音的產生的音頻數據;
音頻渲染部件,音頻渲染部件被配置為在一個或多個揚聲器上播放音頻數據;
捕獲部件,捕獲部件被配置為使用麥克風捕獲音頻(捕獲的音頻);
過濾器部件,過濾器被配置為對捕獲的音頻進行過濾以生成過濾的音頻,其中過濾包括使用緩沖的音頻數據進行過濾,以從捕獲的音頻中去除與音頻數據相對應的音頻;以及
語音識別部件,語音識別部件被配置為基于過濾的音頻生成文本或命令。
根據本發明的一個實施例,其中捕獲部件被配置成在一個或多個揚聲器上播放音頻數據期間捕獲捕獲的音頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福特全球技術公司,未經福特全球技術公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711292146.8/2.html,轉載請聲明來源鉆瓜專利網。





