[發(fā)明專利]基于人工智能的語(yǔ)音識(shí)別方法、裝置及終端有效
| 申請(qǐng)?zhí)枺?/td> | 201710414207.7 | 申請(qǐng)日: | 2017-06-05 |
| 公開(公告)號(hào): | CN107346659B | 公開(公告)日: | 2020-06-23 |
| 發(fā)明(設(shè)計(jì))人: | 陳明明;李先剛;孫玨 | 申請(qǐng)(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號(hào): | G10L15/06 | 分類號(hào): | G10L15/06;G10L15/16;G10L15/183;G10L15/26;G10L19/02;G10L19/26;G10L21/0208 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 人工智能 語(yǔ)音 識(shí)別 方法 裝置 終端 | ||
本發(fā)明提出一種基于人工智能的語(yǔ)音識(shí)別方法、裝置及終端,其中,該方法包括:獲取待識(shí)別的語(yǔ)音數(shù)據(jù);利用訓(xùn)練后的子帶能量歸一化聲學(xué)模型,對(duì)待識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行處理,確定待識(shí)別的語(yǔ)音數(shù)據(jù)中各時(shí)頻單元對(duì)應(yīng)的歸一化能量特征;根據(jù)各時(shí)頻單元對(duì)應(yīng)的歸一化能量特征,確定待識(shí)別的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文本數(shù)據(jù)。由此,實(shí)現(xiàn)了根據(jù)歸一化能量特征,進(jìn)行語(yǔ)音識(shí)別,提高了語(yǔ)音識(shí)別的準(zhǔn)確性,優(yōu)化了語(yǔ)音喚醒的效果,改善了用戶體驗(yàn)。
技術(shù)領(lǐng)域
本發(fā)明涉及音頻技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的語(yǔ)音識(shí)別方法、裝置及終端。
背景技術(shù)
人工智能(Artificial Intelligence,簡(jiǎn)稱AI),是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專家系統(tǒng)等。
隨著科學(xué)技術(shù)的進(jìn)步,語(yǔ)音喚醒技術(shù)被廣泛應(yīng)用于移動(dòng)終端、智能家居或語(yǔ)音交互系統(tǒng)中,為用戶利用語(yǔ)音指令喚醒設(shè)備提供了方便。
目前,國(guó)內(nèi)外主流的語(yǔ)音喚醒技術(shù),通常利用濾波器組(filter bank,簡(jiǎn)稱FB)特征進(jìn)行語(yǔ)音識(shí)別。在安靜近場(chǎng)的場(chǎng)景下,filter bank特征每一個(gè)子帶的能量都非常明顯,這種特征符合人耳聽力的特征,因此可以很好的應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域。然而,在噪聲場(chǎng)景和遠(yuǎn)場(chǎng)場(chǎng)景下,filter bank特征的各個(gè)子帶的能量會(huì)出現(xiàn)失衡,這就導(dǎo)致了語(yǔ)音識(shí)別的準(zhǔn)確性低,影響語(yǔ)音喚醒的效果。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問(wèn)題之一。
為此,本發(fā)明的第一個(gè)目的在于提出一種基于人工智能的語(yǔ)音識(shí)別方法,實(shí)現(xiàn)了根據(jù)歸一化能量特征,進(jìn)行語(yǔ)音識(shí)別,提高了語(yǔ)音識(shí)別的準(zhǔn)確性,優(yōu)化了語(yǔ)音喚醒的效果,改善了用戶體驗(yàn)。
本發(fā)明的第二個(gè)目的在于提出一種基于人工智能的語(yǔ)音識(shí)別裝置。
本發(fā)明的第三個(gè)目的在于提出一種終端。
本發(fā)明的第四個(gè)目的在于提出一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
本發(fā)明的第五個(gè)目的在于提出一種計(jì)算機(jī)程序產(chǎn)品。
為達(dá)上述目的,本發(fā)明第一方面實(shí)施例提出了一種基于人工智能的語(yǔ)音識(shí)別方法,包括:獲取待識(shí)別的語(yǔ)音數(shù)據(jù);利用訓(xùn)練后的子帶能量歸一化聲學(xué)模型,對(duì)所述待識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行處理,確定所述待識(shí)別的語(yǔ)音數(shù)據(jù)中各時(shí)頻單元對(duì)應(yīng)的歸一化能量特征;根據(jù)所述各時(shí)頻單元對(duì)應(yīng)的歸一化能量特征,確定所述待識(shí)別的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文本數(shù)據(jù)。
本發(fā)明實(shí)施例的基于人工智能的語(yǔ)音識(shí)別方法,首先獲取待識(shí)別的語(yǔ)音數(shù)據(jù),然后利用訓(xùn)練后的子帶能量歸一化聲學(xué)模型,對(duì)待識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行處理,確定待識(shí)別的語(yǔ)音數(shù)據(jù)中各時(shí)頻單元對(duì)應(yīng)的歸一化能量特征,最后根據(jù)各時(shí)頻單元對(duì)應(yīng)的歸一化能量特征,確定待識(shí)別的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文本數(shù)據(jù)。由此,實(shí)現(xiàn)了根據(jù)歸一化能量特征,進(jìn)行語(yǔ)音識(shí)別,提高了語(yǔ)音識(shí)別的準(zhǔn)確性,優(yōu)化了語(yǔ)音喚醒的效果,改善了用戶體驗(yàn)。
為達(dá)上述目的,本發(fā)明第二方面實(shí)施例提出了一種基于人工智能的語(yǔ)音識(shí)別裝置,包括:第一獲取模塊,用于獲取待識(shí)別的語(yǔ)音數(shù)據(jù);第一確定模塊,用于利用訓(xùn)練后的子帶能量歸一化聲學(xué)模型,對(duì)所述待識(shí)別的語(yǔ)音數(shù)據(jù)進(jìn)行處理,確定所述待識(shí)別的語(yǔ)音數(shù)據(jù)中各時(shí)頻單元對(duì)應(yīng)的歸一化能量特征;第二確定模塊,用于根據(jù)所述各時(shí)頻單元對(duì)應(yīng)的歸一化能量特征,確定所述待識(shí)別的語(yǔ)音數(shù)據(jù)對(duì)應(yīng)的文本數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710414207.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 使用基于云端的度量迭代訓(xùn)練人工智能的系統(tǒng)
- 一種人工智能轉(zhuǎn)人工智能再轉(zhuǎn)人工方案
- O-RAN系統(tǒng)中的人工智能模型處理方法和裝置
- 人工智能傷口評(píng)估方法及智能終端
- 人工智能倫理風(fēng)險(xiǎn)與防范虛擬仿真方法、系統(tǒng)和機(jī)器人
- 一種基于人工智能基礎(chǔ)資源與技術(shù)調(diào)控系統(tǒng)及方法
- 基于人工智能倫理備選規(guī)則的人工智能倫理風(fēng)險(xiǎn)防范方法
- 人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范虛擬仿真實(shí)驗(yàn)方法和機(jī)器人
- 基于人工智能體決策的人工智能倫理風(fēng)險(xiǎn)辨識(shí)和防范方法
- 基于算法選擇的人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范方法和機(jī)器人
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





