[發明專利]合并語音辨識結果無效
| 申請號: | 201210353495.7 | 申請日: | 2012-09-20 |
| 公開(公告)號: | CN103077715A | 公開(公告)日: | 2013-05-01 |
| 發明(設計)人: | 馬爾切洛·巴斯泰亞福特;大衛·A·維納斯凱 | 申請(專利權)人: | 蘋果公司 |
| 主分類號: | G10L15/30 | 分類號: | G10L15/30 |
| 代理公司: | 北京律盟知識產權代理有限責任公司 11287 | 代理人: | 劉國偉 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 合并 語音 辨識 結果 | ||
技術領域
本發明涉及用于辨識和解釋口述的輸入的自動化電子系統和方法。
背景技術
在許多情形中,語音是用于對電子裝置提供輸入的優選機制。特定來說,口述的輸入可有用于經由屏幕、鍵盤、鼠標或需要物理操縱和/或查看顯示屏的其它輸入裝置與電子裝置交互可能較困難或不安全的情形。舉例來說,在駕駛交通工具時,用戶可能希望對移動裝置(例如智能電話)或基于汽車的導航系統提供輸入,且可發現對裝置說話是提供信息、輸入數據或控制裝置的操作的最有效方式。在其它情形中,用戶可能發現提供口述的輸入是方便的,因為他或她對較為接近地模仿與另一人的交互的對話界面感覺到更舒適。舉例來說,用戶可能希望在與如2011年1月10日申請的第12/987,982號美國實用新型專利申請案“智能自動化助理(Intelligent?Automated?Assistant)”中描述的智能自動化助理交互時提供口述的輸入,所述申請案以引用方式并入本文。
語音辨識可用于許多不同情境中。舉例來說,一些電子系統提供基于話音的用戶接口,其允許用戶經由口述的輸入來控制裝置的操作。語音辨識還可用于交互式話音辨識(IVR)電話系統,其中用戶可導覽選項菜單且可提供輸入以例如購買飛機票、查看電影時間等等。語音辨識還用于許多形式的數據輸入,包含經由文字處理器的寫入。
各種已知技術可用于解釋口述的輸入且將其轉換為文本。聲學建模可用于產生形成個別單詞或短語的聲音或音素的統計學表示。可將音頻輸入與這些統計學表示進行比較以作出哪些單詞或短語是想要的確定。在許多系統中,以某種方式界定有限的詞匯表,以便增加成功匹配的可能性。在一些系統中,語言建??捎靡詭椭A測口述的單詞序列中的下一單詞,且進而減少由語音辨識算法產生的結果中的模糊性。
使用聲學和/或語言模型的語音辨識系統的一些實例是:CMU?Sphinx,作為賓夕法尼亞州匹茲堡市卡內基梅隆大學(Carnegie?Mellon?University?of?Pittsburgh,Pennsylvania)的工程而開發;龍語音辨識軟件,可從馬薩諸塞州伯靈頓市的Nuance通訊公司(Nuance?Communications?of?Burlington,Massachusetts)購得;以及谷歌話音搜索,可從加利福尼亞州山景城的谷歌公司(Google,Inc.of?Mountain?View,California)購得。
無論使用何種語音辨識技術,在許多情況下必須消除口述的輸入的兩個或兩個以上可能解釋之間的歧義。最方便的方法常常是詢問用戶若干可能的解釋中的哪一者是想要的。為了實現此目的,可向用戶呈現口述的輸入的可能候選解釋的某個集合,且提示用戶選擇一者。此提示可經由視覺接口而發生,例如在屏幕上呈現的視覺接口,或經由音頻接口,其中系統讀完候選解釋且請求用戶選擇一者。
當將語音辨識應用于連續口述的一組單詞(例如一個句子中)時,可能存在若干候選解釋。候選解釋的集合可呈現為一組句子。在許多情況下,候選句子的部分彼此類似(或相同),而其它部分以某種方式不同。舉例來說,口述的句子中的一些單詞或短語對于系統來說可能比其它單詞或短語更容易解釋;或者,一些單詞或短語可能與比其它單詞或短語更多數目的候選解釋相關聯。另外,候選解釋的總排列的數目由于候選解釋集合中的自由度的總數的緣故而可能相對高,因為句子的不同部分可能各自以若干不同方式來解釋。潛在較大數目的排列連同句子的不同部分的不同數目的候選一起可致使供用戶選擇的候選句子的呈現太多,且難以導覽。
需要一種用于對語音辨識系統的用戶呈現候選句子的機制,其中候選句子的呈現經簡化且串流以便避免對用戶呈現太多數目的選項。進一步需要一種用于以減少冗余和混淆信息的方式呈現候選句子的機制。
發明內容
本發明的各種實施例實施用于在語音辨識系統中呈現候選解釋集合的改善的機制。通過合并過程而最小化或消除冗余元素,以便簡化對用戶呈現的選項。
本發明可在經配置以接收和解釋口述的輸入的任何電子裝置中實施。以減少或消除冗余性的合并方式來呈現通過將語音辨識算法應用于口述的輸入所得的候選解釋。系統的輸出是作為針對句子的在候選解釋之間不同的那些部分的不同選項的集合而呈現的候選解釋的列表,同時抑制在候選之間相同的那些部分的重復呈現。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘋果公司,未經蘋果公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210353495.7/2.html,轉載請聲明來源鉆瓜專利網。





