[發明專利]基于人工智能的語音喚醒方法和裝置有效
| 申請號: | 201611248513.X | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106653022B | 公開(公告)日: | 2020-06-23 |
| 發明(設計)人: | 唐立亮 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/02;G10L15/06 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人工智能 語音 喚醒 方法 裝置 | ||
1.一種基于人工智能的語音喚醒方法,其特征在于,包括以下步驟:
對各音素進行聚類,以選取出用于指代全部音素的垃圾音素;其中,所述垃圾音素是根據各音素與選定的目標音素之間的距離,確定的按距離從遠到近排序為前第一數量的音素;
根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞;
根據所述垃圾音素、所述反喚醒詞和所述喚醒詞構建解碼網絡;
利用所述解碼網絡進行語音喚醒。
2.根據權利要求1所述的基于人工智能的語音喚醒方法,其特征在于,所述對各音素進行聚類,以選取出用于指代全部音素的垃圾音素,包括:
獲取各個音素和各個音素對應的狀態;
在各個音素中隨機選取所述目標音素,并將所述目標音素添加到垃圾音素集合中;
以所述目標音素作為起點,在各個音素中查詢與所述目標音素距離最遠的音素,并將所查詢到的音素添加到所述垃圾音素集合中;
將所查詢到的音素作為所述目標音素,循環執行所述以所述目標音素作為起點,在各個音素中查詢與所述目標音素距離最遠的音素,并將所查詢到的音素添加到所述垃圾音素集合中的過程,直至所述垃圾音素集合中的音素數量為預設的所述第一數量。
3.根據權利要求2所述的基于人工智能的語音喚醒方法,其特征在于,所述獲取各個音素和各個音素對應的狀態包括:
針對每一個音素,利用混合高斯模型對所述音素的各狀態進行擬合,得到所述音素的混合高斯模型;
采用多個語音的樣本和語音的標注對所得到的各音素的混合高斯模型進行參數優化;
根據各混合高斯模型之間,優化后參數的相似度,對各音素的混合高斯模型進行排序,得到對應的所述各個音素,以及各個音素的狀態。
4.根據權利要求2所述的基于人工智能的語音喚醒方法,其特征在于,所述以所述目標音素作為起點,在各個音素中查詢與所述目標音素距離最遠的音素,包括:
根據公式S=(SM1-SN1)2+(SM2-SN2)2+(SM3-SN3)2計算所述目標音素PM與各音素PN之間的距離S;其中,SM1、SM2和SM3分別為所述目標音素PM的三個狀態,SN1、SN2和SN3分別為所述音素PN的三個狀態;
根據所計算出的距離S,選取S取值最大的音素。
5.根據權利要求1-4任一項所述的基于人工智能的語音喚醒方法,其特征在于,所述對各音素進行聚類,以選取出用于指代全部音素的垃圾音素之后,還包括:
利用各個音素,對多個樣本語音分別進行識別,以得到匹配中的音素;
從匹配中的音素中,選取匹配數量排序為前第二數量的音素,作為篩選集合;
根據所述篩選集合對所述垃圾音素進行篩選,保留處于所述篩選集合中的垃圾音素。
6.根據權利要求1-4任一項所述的基于人工智能的語音喚醒方法,其特征在于,所述根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞,包括:
從與所述喚醒詞發音相似的詞語列表中,選取字數少于所述喚醒詞字數的音近詞;
將所述喚醒詞中的部分字與所述音近詞組合,以構建所述反喚醒詞。
7.根據權利要求1-4任一項所述的基于人工智能的語音喚醒方法,其特征在于,所述利用所述解碼網絡進行語音喚醒,包括:
對輸入的用戶語音提取聲學特征;
將所提取到的聲學特征輸入所述解碼網絡,以采用動態規劃算法,在所述解碼網絡中計算得到為最優路徑的識別結果;
根據識別結果,對終端進行喚醒。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611248513.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音喚醒的控制方法、裝置及終端
- 下一篇:酒瓶(川北情)





