[發明專利]用戶特定的聲學模型有效
| 申請號: | 202010039353.8 | 申請日: | 2018-05-08 |
| 公開(公告)號: | CN111243606B | 公開(公告)日: | 2023-07-21 |
| 發明(設計)人: | M·保力克;H·G·梅森;J·A·斯金德 | 申請(專利權)人: | 蘋果公司 |
| 主分類號: | G10L17/06 | 分類號: | G10L17/06;G10L15/07;G10L15/06;G10L15/04 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 邊海梅 |
| 地址: | 美國加*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 特定 聲學 模型 | ||
1.一種用于處理語音輸入的方法,所述方法包括:
在具有一個或多個處理器的電子設備處;
在所述電子設備上發起用戶特定的聲學模型;
接收包括第一語音輸入在內的多個語音輸入,所述多個語音輸入中的每個語音輸入與所述電子設備的用戶相關聯;
基于提供所述多個語音輸入來調節所述用戶特定的聲學模型;
將經調節的所述用戶特定的聲學模型提供給另一個電子設備;以及
在所述另一個電子設備處:
接收經調節的所述用戶特定的聲學模型;
從說話者接收第二語音輸入;
利用經調節的所述用戶特定的聲學模型來識別所述第二語音輸入的說話者作為所述用戶;
基于所述第二語音輸入發起任務,其中發起所述任務包括執行任務流;以及
提供基于發起的任務的結果,其中所述結果包括音頻輸出。
2.根據權利要求1所述的方法,其中將經調節的所述用戶特定的聲學模型提供給所述另一個電子設備包括:
確定經調節的所述用戶特定的聲學模型是否已在閾值數量的語音輸入上進行訓練;
根據確定經調節的所述用戶特定的聲學模型已在所述閾值數量的語音輸入上進行訓練,將經調節的所述用戶特定的聲學模型提供給所述另一個電子設備;以及
根據確定經調節的所述用戶特定的聲學模型未在所述閾值數量的語音輸入上進行訓練:
基于第二多個語音輸入和多個語音結果來進一步調節經調節的所述用戶特定的聲學模型;以及
將進一步經調節的所述用戶特定的聲學模型提供給所述另一個電子設備。
3.根據權利要求1所述的方法,其中利用經調節的所述用戶特定的聲學模型來識別所述第二語音輸入的所述說話者包括:
將所述第二語音輸入提供給經調節的所述用戶特定的聲學模型,以提供第一語音結果和對應于所述第一語音結果的第一準確度得分;
將所述第二語音輸入提供給另一個用戶特定的聲學模型,以提供第二語音結果和對應于所述第二語音結果的第二準確度得分;以及
基于所述第一準確度得分和所述第二準確度得分來識別所述第二語音輸入的所述說話者。
4.根據權利要求1所述的方法,其中接收所述多個語音輸入包括:
從所述另一個電子設備接收所述多個語音輸入中的一個或多個語音輸入。
5.根據權利要求1所述的方法,其中接收所述多個語音輸入包括:
在所述電子設備處接收所述多個語音輸入中的一個或多個語音輸入。
6.根據權利要求5所述的方法,其中在所述電子設備處接收所述多個語音輸入中的所述一個或多個語音輸入包括:
從對應于電話呼叫的用戶話語獲取所述多個語音輸入中的所述一個或多個語音輸入。
7.根據權利要求5所述的方法,其中在所述電子設備處接收所述多個語音輸入中的所述一個或多個語音輸入包括:
從對應于針對數字助理的請求的用戶話語獲取所述多個語音輸入中的所述一個或多個語音輸入。
8.根據權利要求1所述的方法,還包括:
將所述多個語音輸入提供給用戶獨立的聲學模型,所述用戶獨立的聲學模型基于所述多個語音輸入的第一預定部分提供多個語音結果,其中所述用戶獨立的聲學模型基于數據集,并且其中發起所述用戶特定的聲學模型包括:
使用所述數據集來發起所述用戶特定的聲學模型。
9.根據權利要求8所述的方法,其中所述用戶獨立的聲學模型具有第一數量的參數,并且所述用戶特定的聲學模型具有第二數量的參數,其中所述第一數量大于所述第二數量。
10.根據權利要求8所述的方法,其中所述用戶獨立的聲學模型為兩個或更多個聲學模型的集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘋果公司,未經蘋果公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010039353.8/1.html,轉載請聲明來源鉆瓜專利網。





