[發(fā)明專利]語音端點確定有效
| 申請?zhí)枺?/td> | 201610825803.X | 申請日: | 2016-09-14 |
| 公開(公告)號: | CN107068147B | 公開(公告)日: | 2020-10-20 |
| 發(fā)明(設計)人: | 西迪·塔德帕特里卡爾;邁克爾·布坎南;普拉維爾·庫馬爾·古普塔 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/05;G06F40/20;G06F40/279 |
| 代理公司: | 中原信達知識產(chǎn)權代理有限責任公司 11219 | 代理人: | 李寶泉;周亞榮 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 端點 確定 | ||
描述了用于確定語音的端點的方法、系統(tǒng)和設備,包括被編碼在在計算機存儲介質上的計算機程序。一方面,一種方法包括訪問包括特定用戶說出的語音查詢的語音查詢?nèi)罩緮?shù)據(jù)的動作。所述動作還包括基于包括特定用戶說出的該語音查詢的語音查詢?nèi)罩緮?shù)據(jù),從包括所述特定用戶說出的語音查詢的所述語音查詢?nèi)罩緮?shù)據(jù)確定停頓閾值。所述動作還包括從所述特定用戶接收話語。所述動作還包括確定所述特定用戶已經(jīng)在至少等于停頓閾值的時間段內(nèi)停止說話。所述動作還包括基于確定所述特定用戶已經(jīng)在至少等于所述停頓閾值的時間段內(nèi)停止說話,將所述話語處理為語音查詢。
相關申請的交叉引用
本申請要求于2015年10月19日提交的美國臨時申請?zhí)?2/243,463的權益,其內(nèi)容通過引用并入本文。
技術領域
本公開大體上涉及語音識別,并且一個特定實施方式涉及對話音進行端點確定。
背景技術
自然語言處理系統(tǒng)通常使用端點器來確定用戶何時已經(jīng)開始和結束說話。在確定何時話語開始或者結束時,一些傳統(tǒng)的端點器評價詞之間的停頓的持續(xù)時間。例如,如果用戶說“what islong pausefor dinner(晚餐長停頓吃什么)”,則傳統(tǒng)的端點器可以在長停頓處對語音輸入分段,并且可以指令自然語言處理系統(tǒng)嘗試處理不完整的短語“whatis(吃什么)”而非完整短語“what is for dinner(晚餐吃什么)”。如果端點器指定語音輸入的不正確的起始點或者結束點,則使用自然語言處理系統(tǒng)處理語音輸入的結果可能不精確或者不盡人意。
發(fā)明內(nèi)容
不同用戶對于在他們的移動設備上使用語音輸入可能具有不同的舒適水平。一些用戶可能頻繁地使用語音輸入特征并且能夠在說話期間不猶豫地形成語音查詢。其它用戶可能不那么經(jīng)常地使用語音輸入特征,或者可能無法在不猶豫的情況下快速地構思出查詢。較有經(jīng)驗的用戶可能受益于在測量出用戶語音中的短停頓之后就開始處理用戶的語音查詢的系統(tǒng)。經(jīng)驗較少的用戶可能受益于在測量出用戶語音中的較長停頓之后開始處理用戶的語音查詢來確保經(jīng)驗較少的用戶已經(jīng)完成說話的系統(tǒng)。
為了確定應用于特定用戶的語音查詢的停頓長度,系統(tǒng)分析該特定用戶的先前的語音查詢。對于特定用戶,系統(tǒng)考慮語音查詢頻率、先前的語音查詢的詞之間的停頓長度、先前的語音查詢的完整性、以及先前的語音查詢的長度。與不那么頻繁說出語音查詢的用戶相比,更頻繁說出語音查詢的用戶可能受益于對用戶的語音查詢應用的較短停頓長度。與詞之間具有較長平均停頓長度的用戶相比,先前的語音查詢的詞之間具有短平均停頓長度的用戶可能受益于較短的停頓長度。與較不頻繁說出完整查詢的用戶相比,更經(jīng)常說出完整語音查詢的用戶可能受益于較短的停頓長度。與說出較短語音查詢的用戶相比,說出較長語音查詢的用戶可能受益于較短的停頓長度。一旦系統(tǒng)計算出應用于特定用戶的語音查詢的適當停頓長度,則系統(tǒng)可以使用該特定用戶的停頓長度來在該特定用戶的將來話語期間生成端點。
大體上,本說明書中所述的主題的另一新穎方面可以被實現(xiàn)在方法中,所述方法包括:訪問包括特定用戶說出的語音查詢的語音查詢?nèi)罩緮?shù)據(jù);基于包括特定用戶說出的該語音查詢的語音查詢?nèi)罩緮?shù)據(jù),從包括特定用戶說出的語音查詢的語音查詢?nèi)罩緮?shù)據(jù)確定停頓閾值;從該特定用戶接收話語;確定該特定用戶已經(jīng)在至少等于停頓閾值的時間段內(nèi)停止說話;以及基于確定該特定用戶已經(jīng)在至少等于停頓閾值的時間段內(nèi)停止說話,將該話語處理為語音查詢。
這些和其它實施例均能夠可選地包括一個或多個下列特征。從包括特定用戶說出的語音查詢的語音查詢?nèi)罩緮?shù)據(jù)確定停頓閾值的動作包括將該特定用戶分類為語音識別系統(tǒng)的專家用戶或者語音識別系統(tǒng)的新手用戶;以及基于將該特定用戶分類為語音識別系統(tǒng)的專家用戶或者語音識別系統(tǒng)的新手用戶,確定停頓閾值。語音查詢?nèi)罩緮?shù)據(jù)包括與每個語音查詢相關聯(lián)的時間戳、指示每個語音查詢是否完整的數(shù)據(jù)、以及與每個語音查詢相關聯(lián)的語音停頓間隔。從包括特定用戶說出的語音查詢的語音查詢?nèi)罩緮?shù)據(jù)確定停頓閾值的動作包括基于與每個語音查詢相關聯(lián)的該時間戳、指示每個語音查詢是否完整的該數(shù)據(jù)、以及與每個語音查詢相關聯(lián)的該語音停頓間隔來確定停頓閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經(jīng)谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610825803.X/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





