[發(fā)明專利]一種頻譜提取方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201911424768.0 | 申請(qǐng)日: | 2019-12-31 |
| 公開(kāi)(公告)號(hào): | CN111128228B | 公開(kāi)(公告)日: | 2022-11-01 |
| 發(fā)明(設(shè)計(jì))人: | 張?zhí)盱?/a>;吳金龍 | 申請(qǐng)(專利權(quán))人: | 北京奇藝世紀(jì)科技有限公司 |
| 主分類號(hào): | G10L25/03 | 分類號(hào): | G10L25/03;G10L25/18 |
| 代理公司: | 北京潤(rùn)澤恒知識(shí)產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100080 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 頻譜 提取 方法 裝置 | ||
本發(fā)明實(shí)施例提供了一種頻譜提取方法和裝置,所述方法包括:在預(yù)設(shè)的語(yǔ)音頻譜數(shù)據(jù)中,基于頻率與能量值的分布關(guān)系,查找對(duì)應(yīng)的能量值處于峰值且頻率最低的樂(lè)音基本頻率;基于所述分布關(guān)系以及所述樂(lè)音基本頻率,在所述語(yǔ)音頻譜數(shù)據(jù)中,查找樂(lè)音谷值頻率;采用所述樂(lè)音谷值頻率,在所述語(yǔ)音頻譜數(shù)據(jù)中提取所述樂(lè)音谷值頻率對(duì)應(yīng)的能量值;基于所述樂(lè)音谷值頻率對(duì)應(yīng)的能量值,對(duì)預(yù)設(shè)輕音頻率范圍內(nèi)的頻率分配能量值,生成輕音頻譜數(shù)據(jù)。本發(fā)明實(shí)施例的頻譜提取方法,實(shí)現(xiàn)在所述語(yǔ)音頻譜數(shù)據(jù)中提取輕音頻譜數(shù)據(jù)。所述輕音頻譜數(shù)據(jù)可以用于恢復(fù)語(yǔ)音波形或者對(duì)預(yù)設(shè)的語(yǔ)音識(shí)別模型進(jìn)行訓(xùn)練,提高語(yǔ)音識(shí)別模型對(duì)輕音的識(shí)別準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及音頻處理技術(shù)領(lǐng)域,特別是涉及一種頻譜提取方法以及一種頻譜提取裝置。
背景技術(shù)
語(yǔ)音識(shí)別是指計(jì)算機(jī)對(duì)人類的語(yǔ)音內(nèi)容進(jìn)行識(shí)別,并轉(zhuǎn)換為相應(yīng)的文字的技術(shù)。現(xiàn)有的語(yǔ)音識(shí)別技術(shù)中,通常是在人聲比較明顯,而背景音音量較小或無(wú)背景音的情況下進(jìn)行語(yǔ)音識(shí)別。在人壓制音量,輕聲說(shuō)話的情況下,計(jì)算機(jī)較難正確識(shí)別人聲,導(dǎo)致語(yǔ)音識(shí)別的結(jié)果可能存在錯(cuò)誤,或者出現(xiàn)識(shí)別失敗。
具體地,在人有意識(shí)地壓制音量,輕聲說(shuō)話的情況下,相對(duì)人正常說(shuō)話的聲音,其發(fā)出的聲音可以包含更多通過(guò)聲帶摩擦和回響形成的輕音,而包含更少的通過(guò)聲帶直接震動(dòng)發(fā)出的樂(lè)音。例如,用戶在被窩中悄悄說(shuō)話,或者用戶在安靜的公共場(chǎng)合中輕聲說(shuō)話。現(xiàn)有語(yǔ)音識(shí)別技術(shù)較難在音頻中正確提取輕音,對(duì)語(yǔ)音識(shí)別技術(shù)正確識(shí)別用戶輕聲說(shuō)話的聲音存在影響。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種頻譜提取方法,以實(shí)現(xiàn)在音頻中提取輕音的頻譜。具體技術(shù)方案如下:
在本發(fā)明實(shí)施的第一方面,首先提供了一種頻譜提取方法,所述方法包括:
在預(yù)設(shè)的語(yǔ)音頻譜數(shù)據(jù)中,基于頻率與能量值的分布關(guān)系,查找對(duì)應(yīng)的能量值處于峰值且頻率最低的樂(lè)音基本頻率;
基于所述分布關(guān)系以及所述樂(lè)音基本頻率,在所述語(yǔ)音頻譜數(shù)據(jù)中,查找樂(lè)音谷值頻率;
采用所述樂(lè)音谷值頻率,在所述語(yǔ)音頻譜數(shù)據(jù)中提取所述樂(lè)音谷值頻率對(duì)應(yīng)的能量值;
基于所述樂(lè)音谷值頻率對(duì)應(yīng)的能量值,對(duì)預(yù)設(shè)輕音頻率范圍內(nèi)的頻率分配能量值,生成輕音頻譜數(shù)據(jù)。
可選地,所述基于所述分布關(guān)系以及所述樂(lè)音基本頻率,在所述語(yǔ)音頻譜數(shù)據(jù)中,查找樂(lè)音谷值頻率的步驟,包括:
基于所述分布關(guān)系以及所述樂(lè)音基本頻率,在所述語(yǔ)音頻譜數(shù)據(jù)中,查找樂(lè)音峰值頻率;
基于所述分布關(guān)系以及所述樂(lè)音峰值頻率,在所述語(yǔ)音頻譜數(shù)據(jù)中,查找樂(lè)音谷值頻率。
可選地,所述基于所述分布關(guān)系以及所述樂(lè)音基本頻率,在所述語(yǔ)音頻譜數(shù)據(jù)中,查找樂(lè)音峰值頻率的步驟,包括:
基于所述樂(lè)音基本頻率,確定與所述樂(lè)音基本頻率成倍數(shù)關(guān)系的第一頻率;
將所述第一頻率作為樂(lè)音峰值頻率;或者基于所述分布關(guān)系,在所述語(yǔ)音頻譜數(shù)據(jù)中,查找對(duì)應(yīng)的能量值在所述第一頻率的第一預(yù)設(shè)范圍內(nèi)處于峰值的頻率,作為樂(lè)音峰值頻率。
可選地,所述基于所述分布關(guān)系以及所述樂(lè)音峰值頻率,在所述語(yǔ)音頻譜數(shù)據(jù)中,查找樂(lè)音谷值頻率的步驟,包括:
基于所述樂(lè)音峰值頻率,確定在相鄰的所述樂(lè)音峰值頻率之間處于中位的第二頻率;
將所述第二頻率作為樂(lè)音谷值頻率;或者基于所述分布關(guān)系,在所述語(yǔ)音頻譜數(shù)據(jù)中,查找對(duì)應(yīng)的能量值在所述第二頻率的第二預(yù)設(shè)范圍內(nèi)處于谷值的頻率,作為樂(lè)音谷值頻率。
可選地,所述在預(yù)設(shè)的語(yǔ)音頻譜數(shù)據(jù)中,基于頻率與能量值的分布關(guān)系,查找對(duì)應(yīng)的能量值處于峰值且頻率最低的樂(lè)音基本頻率的步驟,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇藝世紀(jì)科技有限公司,未經(jīng)北京奇藝世紀(jì)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911424768.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種頻譜重構(gòu)的確定方法及系統(tǒng)
- 一種切換頻譜的方法及設(shè)備
- 白頻譜資源獲取方法、白頻譜資源請(qǐng)求設(shè)備及系統(tǒng)
- 頻譜資源管理設(shè)備、方法、系統(tǒng)以及次系統(tǒng)設(shè)備
- 一種頻譜分配的方法和設(shè)備
- 一種降采樣頻率的電網(wǎng)諧波測(cè)量方法
- 一種頻譜共享方法及裝置
- 一種自適應(yīng)的實(shí)時(shí)頻譜數(shù)據(jù)的壓縮方法及系統(tǒng)
- 一種基于頻譜管理器的無(wú)線電空閑資源共享系統(tǒng)
- 頻譜資源管理設(shè)備、方法、系統(tǒng)以及次系統(tǒng)設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





