[發(fā)明專利]學習個性化實體發(fā)音有效
| 申請?zhí)枺?/td> | 201611243235.9 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN107039038B | 公開(公告)日: | 2020-06-19 |
| 發(fā)明(設計)人: | 安托萬·讓·布呂蓋;彭福春;弗朗索瓦絲·博費 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/187 |
| 代理公司: | 中原信達知識產(chǎn)權代理有限責任公司 11219 | 代理人: | 周亞榮;安翔 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 學習 個性化 實體 發(fā)音 | ||
本申請涉及學習個性化實體發(fā)音。本公開提供了方法、系統(tǒng)和設備,其包括在計算機存儲介質(zhì)上被編碼的用于實施發(fā)音字典的計算機程序。所述方法包括:接收與包括命令和實體名稱的講話對應的音頻數(shù)據(jù)。另外,所述方法可以包括:通過自動語音識別器,生成對所述音頻數(shù)據(jù)中與所述實體名稱相關聯(lián)的部分的初始轉錄,接收對所述講話中與所述實體名稱相關聯(lián)的所述部分的修正轉錄,獲取與所述音頻數(shù)據(jù)中與所述實體名稱相關聯(lián)的所述部分相關聯(lián)的音標發(fā)音,對發(fā)音字典進行更新以將所述音標發(fā)音與所述實體名稱相關聯(lián),接收包括所述實體名稱的后續(xù)講話,以及至少部分地基于更新后的發(fā)音字典來對所述后續(xù)講話進行轉錄。可以提供改進的語音識別和更高質(zhì)量的轉錄。
技術領域
本說明書大體上涉及語音識別。
背景技術
裝置的用戶可以按照多種不同的方式與裝置交互,方式包括,例如,使用鼠標或者觸控板從所顯示的一組項中做出選擇、經(jīng)由鍵盤輸入字符、或者對著麥克風說出語音命令。當處理語音命令時,如果說話者使用偏離與在發(fā)音字典中的單詞相關聯(lián)的規(guī)范發(fā)音的特定單詞的發(fā)音,則自動語音識別器(ASR)可能難以準確地識別語音命令。
發(fā)明內(nèi)容
本公開的方面可以促進基于用戶與移動裝置的交互實施可以存儲實體名稱的不同的、非規(guī)范發(fā)音的發(fā)音字典。在某些情況下,發(fā)音字典可以適應可能會更改用戶對某些單詞的發(fā)音的用戶語音的唯一特征。例如,可以對發(fā)音字典進行初始化,從而使實體名稱“Mara”與音標發(fā)音“MAW·rra”對應。然而,通過利用本公開的方面,發(fā)音字典可以學習特定用戶將實體名稱“Mara”發(fā)音為“MA·ra”。因此,基于與特定用戶的交互,發(fā)音字典可以學習將發(fā)音“MA·ra”與實體名稱“Mara”相關聯(lián)。通過利用本公開的方面,可以提供改進的語音識別和更高質(zhì)量的轉錄。
在某些方面中,本說明書中所體現(xiàn)的主題可以體現(xiàn)為方法,該方法包括如下動作:接收與包括命令和實體名稱的講話對應的音頻數(shù)據(jù)。附加動作可以包括:通過自動語音識別器,生成音頻數(shù)據(jù)中與實體名稱相關聯(lián)的部分的初始轉錄,接收講話中與實體名稱相關聯(lián)的部分的、與初始轉錄不同的修正轉錄,響應于接收到講話中與實體名稱相關聯(lián)的部分的、與初始轉錄不同的修正轉錄,獲取與音頻數(shù)據(jù)中與實體名稱相關聯(lián)的部分相關聯(lián)的音標發(fā)音,對發(fā)音字典進行更新以將音標發(fā)音與實體名稱相關聯(lián),接收包括實體名稱的后續(xù)發(fā)言,以及至少部分地基于更新后的發(fā)音字典來對后續(xù)講話進行轉錄。
其它版本包括編碼在計算機存儲裝置上的、被配置為執(zhí)行方法的動作的對應系統(tǒng)、設備、計算機程序、以及該配置為使計算設備執(zhí)行方法的動作的計算機程序。
這些和其它版本可以分別可選地包括以下特征中的一個或者多個。例如,在某些實施方式中,接收對講話中與實體名稱相關聯(lián)的部分的、與初始轉錄不同的修正轉錄可以包括:接收指示從一個或者多個實體名稱的列表中選擇實體名稱的數(shù)據(jù),或者接收指示經(jīng)由小鍵盤輸入并且作為對實體名稱的指示的一個或者多個字符的數(shù)據(jù)。
在某些方面中,對發(fā)音字典進行更新可以包括:識別與實體名稱相關聯(lián)的發(fā)音字典條目,刪除該條目的與初始轉錄的音標發(fā)音對應的部分,以及將與獲取的音標發(fā)音相關聯(lián)的音標發(fā)音存儲在與實體名稱相關聯(lián)的發(fā)音字典條目中。
在某些實施方式中,該方法可以包括如下動作:將時間戳與接收到的音頻數(shù)據(jù)的至少一部分相關聯(lián);以及對接收到的音頻數(shù)據(jù)的一個或者多個部分進行緩存,直到識別到對講話的正確轉錄并且完成與接收到的講話相關聯(lián)的所述命令。在這種實施方式中,獲取與音頻數(shù)據(jù)中與實體名稱相關聯(lián)的部分相關聯(lián)的音標發(fā)音可以包括:基于與接收到的音頻數(shù)據(jù)的至少一部分相關聯(lián)的時間戳來獲取最近接收到的音頻數(shù)據(jù)的部分;以及基于通過使用聲學模型而獲取到的一組音素來生成所獲取的最近接收到的音頻數(shù)據(jù)的部分的音標發(fā)音。
在其它實施方式中,該方法可以包括動作,該動作包括:響應于將發(fā)音字典更新為包括獲取到的音標發(fā)音,增加與音標發(fā)音相關聯(lián)的全局計數(shù)器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經(jīng)谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611243235.9/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





