[發(fā)明專利]基于人工智能的語音特征提取方法及裝置有效
| 申請?zhí)枺?/td> | 201611239071.2 | 申請日: | 2016-12-28 |
| 公開(公告)號: | CN106710589B | 公開(公告)日: | 2019-07-30 |
| 發(fā)明(設(shè)計)人: | 李超;李先剛 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L25/18 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 卷積 語音特征提取 人工智能 頻譜分析 語音特征 圖像識別算法 有效的圖像 特征提取 圖像特征 語音識別 語音轉(zhuǎn)換 準(zhǔn)確率 成語 | ||
本發(fā)明提出一種基于人工智能的語音特征提取方法及裝置,其中,方法包括:對待識別語音進行頻譜分析,得到待識別語音的語譜圖,利用圖像識別算法中的Inception卷積結(jié)構(gòu),對語譜圖進行特征提取,得到待識別語音的語音特征。本發(fā)明中,通過對待識別語音進行頻譜分析,將連續(xù)的待識別語音轉(zhuǎn)換成語譜圖進行表示,由于Inception卷積結(jié)構(gòu)為可以精準(zhǔn)識別圖像特征的有效的圖像識別方式,利用Inception卷積結(jié)構(gòu)對語譜圖進行識別,提取出待識別語音較為準(zhǔn)確的語音特征,進而可以提高語音識別的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的語音特征提取方法及裝置。
背景技術(shù)
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計算機科學(xué)的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機器,該領(lǐng)域的研究包括機器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。其中,人工智能最重要的方面就是語音識別技術(shù)。
隨著語音搜索業(yè)務(wù)的不斷普及,越來越多的人開始使用自己的語音來搜索所需要的信息,語音搜索的比例逐年提高。在基于語音搜索的過程,首先需要對語音進行識別,然后基于識別結(jié)果進行搜索。目前,多采用神經(jīng)網(wǎng)絡(luò)對語音進行識別。
但是,現(xiàn)有基于聲學(xué)模型的語音識別中,在聲學(xué)模型中并沒有設(shè)置專門的特征提取層(layers),而是使用全連接(Full Connect,簡稱FC)層進行語音的特征提取,導(dǎo)致現(xiàn)有的語音識別的準(zhǔn)確率較差。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的第一個目的在于提出一種基于人工智能的語音特征提取方法,用于解決現(xiàn)有基于神經(jīng)網(wǎng)絡(luò)的語音識別中,由于沒有設(shè)置專門的特征提取層,而是使用FC層進行語音特征的提取,導(dǎo)致現(xiàn)有的語音識別的準(zhǔn)確率較差的問題。
本發(fā)明的第二個目的在于提出一種基于人工智能的語音特征提取裝置。
本發(fā)明的第三個目的在于提出另一種基于人工智能的語音特征提取裝置。
本發(fā)明的第四個目的在于提出一種非臨時性計算機可讀存儲介質(zhì)。
本發(fā)明的第五個目的在于提出一種計算機程序產(chǎn)品。
為達(dá)上述目的,本發(fā)明第一方面實施例提出了一種基于人工智能的語音特征提取方法,包括:
對待識別語音進行頻譜分析,得到所述待識別語音的語譜圖;
利用圖像識別算法中的Inception卷積結(jié)構(gòu),對所述語譜圖進行特征提取,得到所述待識別語音的語音特征。
本發(fā)明實施例的基于人工智能的語音特征提取方法,通過對待識別語音進行頻譜分析,將連續(xù)的待識別語音轉(zhuǎn)換成語譜圖進行表示,由于Inception卷積結(jié)構(gòu)為可以精準(zhǔn)識別圖像特征的有效的圖像識別方式,進而利用Inception卷積結(jié)構(gòu)對語譜圖進行識別,提取出待識別語音較為準(zhǔn)確的語音特征,進而可以提高語音識別的準(zhǔn)確率。由于Inception卷積結(jié)構(gòu)可以提取語音特征,從而可以在聲學(xué)模型中可以將Inception卷積結(jié)構(gòu)作為單獨的語音特征提取層使用,進而克服現(xiàn)有技術(shù)中由于聲學(xué)模型中并沒有設(shè)置專門的特征提取層,使得語音識別準(zhǔn)確率較差的問題。
為達(dá)上述目的,本發(fā)明第二方面實施例提出了一種基于人工智能的語音特征提取裝置,包括:
語譜圖獲取模塊,用于對待識別語音進行頻譜分析,得到所述待識別語音的語譜圖;
特征提取模塊,用于利用圖像識別算法中的Inception卷積結(jié)構(gòu),對所述語譜圖進行特征提取,得到所述待識別語音的語音特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611239071.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)
- 使用基于云端的度量迭代訓(xùn)練人工智能的系統(tǒng)
- 一種人工智能轉(zhuǎn)人工智能再轉(zhuǎn)人工方案
- O-RAN系統(tǒng)中的人工智能模型處理方法和裝置
- 人工智能傷口評估方法及智能終端
- 人工智能倫理風(fēng)險與防范虛擬仿真方法、系統(tǒng)和機器人
- 一種基于人工智能基礎(chǔ)資源與技術(shù)調(diào)控系統(tǒng)及方法
- 基于人工智能倫理備選規(guī)則的人工智能倫理風(fēng)險防范方法
- 人工智能倫理風(fēng)險辨識防范虛擬仿真實驗方法和機器人
- 基于人工智能體決策的人工智能倫理風(fēng)險辨識和防范方法
- 基于算法選擇的人工智能倫理風(fēng)險辨識防范方法和機器人





