[發(fā)明專利]基于人工智能的語音特征提取方法及裝置有效

申請?zhí)枺?/td>	201611239071.2	申請日：	2016-12-28
公開（公告）號：	CN106710589B	公開（公告）日：	2019-07-30
發(fā)明（設(shè)計）人：	李超;李先剛	申請（專利權(quán)）人：	百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司
主分類號：	G10L15/02	分類號：	G10L15/02;G10L25/18
代理公司：	北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音卷積語音特征提取人工智能頻譜分析語音特征圖像識別算法有效的圖像特征提取圖像特征語音識別語音轉(zhuǎn)換準(zhǔn)確率成語
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提出一種基于人工智能的語音特征提取方法及裝置，其中，方法包括：對待識別語音進行頻譜分析，得到待識別語音的語譜圖，利用圖像識別算法中的Inception卷積結(jié)構(gòu)，對語譜圖進行特征提取，得到待識別語音的語音特征。本發(fā)明中，通過對待識別語音進行頻譜分析，將連續(xù)的待識別語音轉(zhuǎn)換成語譜圖進行表示，由于Inception卷積結(jié)構(gòu)為可以精準(zhǔn)識別圖像特征的有效的圖像識別方式，利用Inception卷積結(jié)構(gòu)對語譜圖進行識別，提取出待識別語音較為準(zhǔn)確的語音特征，進而可以提高語音識別的準(zhǔn)確率。

技術(shù)領(lǐng)域

本發(fā)明涉及信息處理技術(shù)領(lǐng)域，尤其涉及一種基于人工智能的語音特征提取方法及裝置。

背景技術(shù)

人工智能(Artificial Intelligence)，英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計算機科學(xué)的一個分支，它企圖了解智能的實質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機器，該領(lǐng)域的研究包括機器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。其中，人工智能最重要的方面就是語音識別技術(shù)。

隨著語音搜索業(yè)務(wù)的不斷普及，越來越多的人開始使用自己的語音來搜索所需要的信息，語音搜索的比例逐年提高。在基于語音搜索的過程，首先需要對語音進行識別，然后基于識別結(jié)果進行搜索。目前，多采用神經(jīng)網(wǎng)絡(luò)對語音進行識別。

但是，現(xiàn)有基于聲學(xué)模型的語音識別中，在聲學(xué)模型中并沒有設(shè)置專門的特征提取層(layers)，而是使用全連接(Full Connect，簡稱FC)層進行語音的特征提取，導(dǎo)致現(xiàn)有的語音識別的準(zhǔn)確率較差。

發(fā)明內(nèi)容

本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。

為此，本發(fā)明的第一個目的在于提出一種基于人工智能的語音特征提取方法，用于解決現(xiàn)有基于神經(jīng)網(wǎng)絡(luò)的語音識別中，由于沒有設(shè)置專門的特征提取層，而是使用FC層進行語音特征的提取，導(dǎo)致現(xiàn)有的語音識別的準(zhǔn)確率較差的問題。

本發(fā)明的第二個目的在于提出一種基于人工智能的語音特征提取裝置。

本發(fā)明的第三個目的在于提出另一種基于人工智能的語音特征提取裝置。

本發(fā)明的第四個目的在于提出一種非臨時性計算機可讀存儲介質(zhì)。

本發(fā)明的第五個目的在于提出一種計算機程序產(chǎn)品。

為達(dá)上述目的，本發(fā)明第一方面實施例提出了一種基于人工智能的語音特征提取方法，包括：

對待識別語音進行頻譜分析，得到所述待識別語音的語譜圖；

利用圖像識別算法中的Inception卷積結(jié)構(gòu)，對所述語譜圖進行特征提取，得到所述待識別語音的語音特征。

本發(fā)明實施例的基于人工智能的語音特征提取方法，通過對待識別語音進行頻譜分析，將連續(xù)的待識別語音轉(zhuǎn)換成語譜圖進行表示，由于Inception卷積結(jié)構(gòu)為可以精準(zhǔn)識別圖像特征的有效的圖像識別方式，進而利用Inception卷積結(jié)構(gòu)對語譜圖進行識別，提取出待識別語音較為準(zhǔn)確的語音特征，進而可以提高語音識別的準(zhǔn)確率。由于Inception卷積結(jié)構(gòu)可以提取語音特征，從而可以在聲學(xué)模型中可以將Inception卷積結(jié)構(gòu)作為單獨的語音特征提取層使用，進而克服現(xiàn)有技術(shù)中由于聲學(xué)模型中并沒有設(shè)置專門的特征提取層，使得語音識別準(zhǔn)確率較差的問題。

為達(dá)上述目的，本發(fā)明第二方面實施例提出了一種基于人工智能的語音特征提取裝置，包括：

語譜圖獲取模塊，用于對待識別語音進行頻譜分析，得到所述待識別語音的語譜圖；

特征提取模塊，用于利用圖像識別算法中的Inception卷積結(jié)構(gòu)，對所述語譜圖進行特征提取，得到所述待識別語音的語音特征。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司，未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611239071.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：電網(wǎng)多任務(wù)在線協(xié)同編輯方法
下一篇：電感耦合等離子體質(zhì)譜分析方法及質(zhì)譜儀

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】