[發明專利]訓練和/或使用語言選擇模型以自動確定用于口頭話語的話音辨識的語言在審
| 申請號: | 201980026087.0 | 申請日: | 2019-11-27 |
| 公開(公告)號: | CN112673421A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 萬里;于洋;普拉尚特·斯里達爾;伊格納西奧·洛佩斯·莫雷諾;王泉 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/16;G10L15/183;G10L15/14;G10L25/24;G06N3/00 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;鄧聰惠 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 使用 語言 選擇 模型 自動 確定 用于 口頭 話語 話音 辨識 | ||
用于訓練和/或使用語音選擇模型以在確定音頻數據中捕獲的口頭話語的特定語言時使用。可以使用經訓練的語言選擇模型處理音頻數據的特征以生成N種不同語言中的每一種語言的預測概率,并且基于所生成的概率選擇特定語言。可以響應于選擇了口頭話語的特定語言而采用針對該特定語言的話音辨識結果。許多實施方式涉及利用元組損失代替傳統的交叉熵損失來訓練語言選擇模型。利用元組損失訓練語言選擇模型可以導致更加有效的訓練和/或可以導致更加準確和/或魯棒的模型——由此緩解了針對口頭話語的錯誤語言選擇。
背景技術
人類可以參與與交互式軟件應用的人機對話,該交互式軟件應用在本文被稱作“自動化助理”(也被稱作“數字代理”、“聊天機器人”、“交互式個人助理”、“智能個人助理”、“助理應用”、“對話代理”等)。例如,人類(當他們與自動化助理交互式可以被稱作“用戶”)可以使用口頭自然語言輸入(即,話語)和/或通過提供文本(例如,鍵入的)自然語言輸入向自動化助理提供命令和/或請求,該口頭自然語言輸入在一些情況下可以被轉換為文本并且然后被處理。自動化助理通過提供響應性用戶接口輸出而對請求作出響應,該響應性用戶接口輸出可以包括可聽和/或視覺用戶接口輸出。
如上文所提到的,自動化助理可以將對應于用戶的口頭話語的音頻數據轉換為相對應的文本(或其它語義表示)。例如,音頻數據可以基于經由客戶端設備的一個或多個麥克風對用戶的口頭話語的檢測而生成,該客戶端設備包括用于使得用戶能夠與自動化助理交互的助理接口。自動化助理可以包括話音辨識引擎,該話音辨識引擎利用話音辨識模型來辨識在音頻數據中所捕獲的口頭話語的各種特性,諸如該口頭話語所產生的聲音(例如,音素)、所產生的聲音的順序、話音的節奏、聲調等。另外,話音辨識引擎可以識別這樣的特性所表示的文本單詞或短語。該文本然后可以由自動化助理在確定口頭話語的響應內容時進一步處理(例如,使用自然語言理解(NLU)引擎和/或對話狀態引擎)。話音辨識引擎可以由客戶端設備和/或遠離客戶端設備但是與客戶端設備網絡通信的一個或多個自動化助理組件來實施。
然而,許多話音辨識引擎被配置為僅辨識單一語言的話音。對于多語言用戶和/或家庭來說,這樣的單一語言話音辨識引擎可能無法令人滿意,并且在以并非話音辨識引擎所支持的單一語言的附加語言接收到口頭話語時可能導致自動化助理故障和/或提供錯誤的輸出。這可以致使自動化助理不可用和/或引起計算和/或網絡資源的過度使用。計算和/或網絡資源的過度使用可能是由于用戶在自動化助理故障或提供錯誤輸出時需要提供以所支持的單一語言的另外的口頭話語。這樣的另外的口頭話語必須由相對應的客戶端設備和/或遠程自動化助理組件附加處理,由此導致各種資源的附加使用。
其它的話音辨識引擎可以被配置為辨識多種語言的話音,但是要求用戶明確指定在給定時間應當在話音辨識中利用多種語言中的哪一種。例如,其它話音辨識引擎中的一些話音辨識引擎可能要求用戶手動地指定在特定客戶端設備處接收到的所有口頭話語的話音辨識中要利用的默認語言。為了將該默認語言改變為另一種語言,可以要求用戶與圖形和/或可聽接口進行交互以明確地更改默認語言。這樣的交互可能引起接口的渲染、對用戶經由接口所提供的輸入的處理等中的計算和/或網絡資源的過度使用。另外,可能經常出現用戶在提供當前不是默認語言的口頭話語之前忘記改變默認語言的情形。如上文所描述的,這可能致使自動化助理不可用和/或引起計算和/或網絡資源的過度使用。
發明內容
本文所描述的實施方式涉及用于訓練和/或使用語言選擇模型(其是神經網絡模型或其它機器學習模型)以自動確定在音頻數據中捕獲的口頭話語的特定語言。可以使用經訓練的語言選擇模型處理該音頻數據的特征以生成N種不同語言中的每一種語言的預測概率,并且基于所生成的概率選擇的特定語言。可以響應于選擇了特定語言而利用針對該特定語言的話音辨識結果。許多實施方式涉及利用元組損失代替傳統的交叉熵損失來訓練語言選擇模型。利用元組損失訓練語言選擇模型可以導致更加有效的訓練,由此導致在訓練期間利用更少的資源(例如,在訓練期間處理訓練示例時所利用的處理器和/或存儲器資源)。附加地或可替選地,利用元組損失訓練語言選擇模型可以導致更加準確和/或魯棒的模型——由此緩解了針對口頭話語的錯誤語言選擇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980026087.0/2.html,轉載請聲明來源鉆瓜專利網。





