[發(fā)明專利]基于位置標記的語音識別模型有效
| 申請?zhí)枺?/td> | 201380040775.5 | 申請日: | 2013-07-23 |
| 公開(公告)號: | CN104509079B | 公開(公告)日: | 2017-06-09 |
| 發(fā)明(設(shè)計)人: | G·陶布曼;B·斯特羅普 | 申請(專利權(quán))人: | 谷歌公司 |
| 主分類號: | H04M1/725 | 分類號: | H04M1/725;G10L15/30;G10L15/183;G10L15/22 |
| 代理公司: | 北京市金杜律師事務(wù)所11256 | 代理人: | 酆迅 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 位置 標記 語音 識別 模型 | ||
相關(guān)申請的交叉引用
本申請要求于2012年8月1日提交的序列號為61/678,277和于2012年10月15日提交的序列號為13/651,566的美國臨時申請的權(quán)益,其整體如同完全記載于此一樣通過引用的方式并入。
技術(shù)領(lǐng)域
本說明書總體上涉及自動語音識別。
背景技術(shù)
語音識別通常依賴于所說語言的語音識別模型。然而,對于給定的語言(或給定語言的方言),取決于在何處發(fā)出詞語而不同地使用詞語。例如,當人在他們的客廳中時,他們可能頻繁地使用與電視節(jié)目和媒體播放器的控制相關(guān)的詞語,而當人在他們的廚房中時,他們可能使用與食物類型或烹飪相關(guān)的詞語。用于語音識別的典型語言模型通常沒有考慮到在說出詞語處的位置特定情境,特別是對于在建筑物(例如在家)內(nèi)的詞語使用的變化。
發(fā)明內(nèi)容
一般而言,本說明書中所描述的主題的一方面可以包括自動語音識別引擎(ASR),該自動語音識別引擎使用基于說話者在建筑物中何處做出話語的模型,執(zhí)行語音識別。在一些實現(xiàn)方式中,該語音識別模型可以是基于兩個或更多情境特定模型的復(fù)合模型。ASR引擎可以將話語轉(zhuǎn)錄成文本,例如用于語音查詢,或者通過處理器執(zhí)行將話語轉(zhuǎn)換成命令。
在某些方面,本說明書中所描述的主題可以體現(xiàn)為方法,該方法包括接收對應(yīng)于話語的數(shù)據(jù)和獲得用于其中該話語被說出的建筑物內(nèi)的區(qū)域的位置標記的動作。進一步的動作包括基于位置標記選擇用于語音識別的一個或多個模型,其中每個所選擇的一個或多個模型與基于位置標記的權(quán)重相關(guān)聯(lián)。此外,所述動作還包括使用所選擇的一個或多個模型和所選擇的一個或多個模型的相應(yīng)權(quán)重來生成復(fù)合模型。所述動作還包括使用復(fù)合模型生成話語的轉(zhuǎn)錄。
主題的另一方面可以體現(xiàn)為方法,該方法包括在客戶端設(shè)備處接收話語和在客戶端設(shè)備處獲得用于其中該話語被說出的建筑物內(nèi)的區(qū)域的位置標記的動作。所述動作還包括從客戶端設(shè)備向服務(wù)器傳送對應(yīng)于話語和用于其中話語被說出的建筑物內(nèi)的區(qū)域的位置標記的數(shù)據(jù)。并且所述動作包括在客戶端設(shè)備處接收話語的轉(zhuǎn)錄。在一些方面,使用復(fù)合模型生成話語的轉(zhuǎn)錄,并且使用一個或多個模型和基于位置標記而選擇的一個或多個模型的相應(yīng)權(quán)重來生成復(fù)合模型。
其他版本包括相對應(yīng)的系統(tǒng)、裝置和被配置為執(zhí)行所述方法的動作的計算機程序,該計算機程序編碼在計算機存儲設(shè)備上。
這些和其他的版本可以每個可選擇地包括以下特征中的一個或多個特征。例如,一些實現(xiàn)方式涉及到從客戶端設(shè)備接收對應(yīng)于話語的數(shù)據(jù),從客戶端設(shè)備接收用于其中該話語被說出的建筑物內(nèi)的區(qū)域的位置標記。該位置標記可以為基于在客戶端設(shè)備處接收的短程無線電傳輸?shù)奈恢脭?shù)據(jù)。
一些實現(xiàn)方式涉及到使用位置無關(guān)語言模型生成話語的一個或多個候選轉(zhuǎn)錄,并且然后基于將一個或多個候選轉(zhuǎn)錄與一個或多個位置相關(guān)語言模型中的短語進行比較,標識建筑物內(nèi)的一個或多個候選區(qū)域。
某些實現(xiàn)方式涉及到從在建筑物處的處理系統(tǒng)接收對應(yīng)于話語的數(shù)據(jù),并且從在建筑物處的處理系統(tǒng)接收用于其中話語被說出的建筑物內(nèi)的區(qū)域的位置標記。在一些方面,位置標記為從處理系統(tǒng)獲得的位置數(shù)據(jù)。處理系統(tǒng)使用被布置在建筑物中的麥克風(fēng)陣列定位話語,其中麥克風(fēng)陣列可操作地耦合到處理系統(tǒng)。
此外,在一些實現(xiàn)方式中,所選擇的用于語音識別的模型為語言模型,并且復(fù)合模型為復(fù)合語言模型。在一些實現(xiàn)方式中,所選擇的用于語音識別的模型為聲學(xué)模型,并且復(fù)合模型為復(fù)合聲學(xué)模型。并且在一些實現(xiàn)方式中,所選擇的用于語音識別的模型為語言模型和聲學(xué)模型,并且復(fù)合模型為復(fù)合語言模型和復(fù)合聲學(xué)模型。
在下文的附圖和描述中記載了本說明書所描述的主題的一個或多個實施例的細節(jié)。所述主題的其他特征、方面以及優(yōu)點將根據(jù)描述、附圖和權(quán)利要求而變得清楚。
附圖說明
圖1a和1b是生成位置相關(guān)語音識別模型和使用位置相關(guān)語音識別模型執(zhí)行語音識別的示例系統(tǒng)的圖。
圖2是生成和獲得位置相關(guān)聲學(xué)模型以用于在語音識別中使用的樣本ASR引擎的組件的圖。
圖3a和3b是生成和獲得位置相關(guān)語音模型以用于在語音識別中使用的樣本ASR引擎的組件的圖。
圖4是用于使用基于位置標記的語音識別模型來執(zhí)行語音識別的示例過程的流程圖。
在不同附圖中相同的附圖的標記表示相同的元件。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于谷歌公司,未經(jīng)谷歌公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380040775.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





