[發(fā)明專利]基于人工智能的語音喚醒方法和裝置有效

申請?zhí)枺?/td>	201611248513.X	申請日：	2016-12-29
公開（公告）號：	CN106653022B	公開（公告）日：	2020-06-23
發(fā)明（設(shè)計(jì)）人：	唐立亮	申請（專利權(quán)）人：	百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/02;G10L15/06
代理公司：	北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于人工智能語音喚醒方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提出一種基于人工智能的語音喚醒方法和裝置，其中，方法包括：通過對各音素進(jìn)行聚類，以選取出用于指代全部音素的垃圾音素，以及根據(jù)預(yù)先設(shè)定的喚醒詞，構(gòu)建與所述喚醒詞相似的反喚醒詞之后，根據(jù)垃圾音素、反喚醒詞和喚醒詞構(gòu)建解碼網(wǎng)絡(luò)，從而可以利用該解碼網(wǎng)絡(luò)進(jìn)行語音喚醒。由于垃圾音素的數(shù)據(jù)量明顯少于垃圾詞的數(shù)據(jù)量，解決了現(xiàn)有技術(shù)中垃圾詞模型占用數(shù)據(jù)量過大的問題，同時(shí)，由于詞匯是由有限個(gè)音素所構(gòu)成的，因此，垃圾音素相較于垃圾詞也更能夠較為全面覆蓋全部詞匯提高了喚醒精度，減少誤喚醒的概率。

技術(shù)領(lǐng)域

本發(fā)明涉及語音識別技術(shù)領(lǐng)域，尤其涉及一種基于人工智能的語音喚醒方法和裝置。

背景技術(shù)

人工智能(Artificial Intelligence)，英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支，它企圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器，該領(lǐng)域的研究包括機(jī)器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。其中，人工智能最重要的應(yīng)用方面就是語音識別技術(shù)。

而語音喚醒技術(shù)是語音識別技術(shù)中的重要方向之一，具體來說，語音喚醒技術(shù)是通過在終端處于待機(jī)狀態(tài)下，用戶說出特定的喚醒詞，對終端進(jìn)行喚醒，以激活系統(tǒng)，從而實(shí)現(xiàn)相應(yīng)的操作或服務(wù)。

在現(xiàn)有技術(shù)中，通常將喚醒詞和垃圾詞并聯(lián)形成一個(gè)解碼網(wǎng)絡(luò)，根據(jù)用戶語音的聲學(xué)特征，在解碼網(wǎng)絡(luò)中尋找最為匹配的識別結(jié)果，根據(jù)識別結(jié)果對終端進(jìn)行喚醒。在構(gòu)建垃圾詞時(shí)，若選擇的漢字量較少，就不能獲得較高的識別準(zhǔn)確，而若選擇的漢字量較多，又會導(dǎo)致數(shù)據(jù)量過大，占用設(shè)備存儲空間以及影響運(yùn)算效率。

發(fā)明內(nèi)容

本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。

為此，本發(fā)明的第一個(gè)目的在于提出一種基于人工智能的語音喚醒方法，以通過利用垃圾音素構(gòu)建垃圾音素模型，解決現(xiàn)有技術(shù)中垃圾詞模型占用數(shù)據(jù)量過大的問題，同時(shí)，通過垃圾音素來表征全部的語音，提高了喚醒精度，減少誤喚醒的概率。

本發(fā)明的第二個(gè)目的在于提出一種基于人工智能的語音喚醒裝置。

本發(fā)明的第三個(gè)目的在于提出另一種基于人工智能的語音喚醒裝置。

本發(fā)明的第四個(gè)目的在于提出一種非臨時(shí)性計(jì)算機(jī)可讀存儲介質(zhì)。

本發(fā)明的第五個(gè)目的在于提出一種計(jì)算機(jī)程序產(chǎn)品。

為達(dá)上述目的，本發(fā)明第一方面實(shí)施例提出了一種基于人工智能的語音喚醒方法，包括：

對各音素進(jìn)行聚類，以選取出用于指代全部音素的垃圾音素；

根據(jù)預(yù)先設(shè)定的喚醒詞，構(gòu)建與所述喚醒詞相似的反喚醒詞；

根據(jù)所述垃圾音素、所述反喚醒詞和所述喚醒詞構(gòu)建解碼網(wǎng)絡(luò)；

利用所述解碼網(wǎng)絡(luò)進(jìn)行語音喚醒。

本發(fā)明實(shí)施例的基于人工智能的語音喚醒方法，通過對各音素進(jìn)行聚類，以選取出用于指代全部音素的垃圾音素，以及根據(jù)預(yù)先設(shè)定的喚醒詞，構(gòu)建與所述喚醒詞相似的反喚醒詞之后，根據(jù)垃圾音素、反喚醒詞和喚醒詞構(gòu)建解碼網(wǎng)絡(luò)，從而可以利用該解碼網(wǎng)絡(luò)進(jìn)行語音喚醒。由于垃圾音素的數(shù)據(jù)量明顯少于垃圾詞的數(shù)據(jù)量，解決了現(xiàn)有技術(shù)中垃圾詞模型占用數(shù)據(jù)量過大的問題，同時(shí)，由于詞匯是由有限個(gè)音素所構(gòu)成的，因此，垃圾音素相較于垃圾詞也更能夠較為全面覆蓋全部詞匯提高了喚醒精度，減少誤喚醒的概率。

為達(dá)上述目的，本發(fā)明第二方面實(shí)施例提出了一種基于人工智能的語音喚醒裝置，包括：

第一選取模塊，用于對各音素進(jìn)行聚類，以選取出用于指代全部音素的垃圾音素；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司，未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611248513.X/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】