[發(fā)明專利]基于聲紋識別的錄音文件分離方法及裝置在審
| 申請?zhí)枺?/td> | 201610077739.1 | 申請日: | 2016-02-03 |
| 公開(公告)號: | CN105719659A | 公開(公告)日: | 2016-06-29 |
| 發(fā)明(設(shè)計)人: | 廖娟娟 | 申請(專利權(quán))人: | 努比亞技術(shù)有限公司 |
| 主分類號: | G10L21/0308 | 分類號: | G10L21/0308;G10L17/02;G10L17/06 |
| 代理公司: | 北京派特恩知識產(chǎn)權(quán)代理有限公司 11270 | 代理人: | 姚開麗;張振偉 |
| 地址: | 518000 廣東省深圳市南山區(qū)高新區(qū)北環(huán)大道9018*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 聲紋 識別 錄音 文件 分離 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及錄音技術(shù)領(lǐng)域,尤其涉及一種基于聲紋識別的錄音文件分離方法及裝置。
背景技術(shù)
目前,使用手機(jī)等移動終端進(jìn)行錄音,所記錄的聲音數(shù)據(jù)非常多且復(fù)雜,例如,對于會議錄音,通常包含多個會議參與人的聲音數(shù)據(jù),在回顧會議內(nèi)容或進(jìn)行會議記要工作時,需要聽取錄音文件,但由于參與會議的人較多,可能無法聽清錄音內(nèi)容,給用戶的工作生活帶來不便。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例期望提供一種基于聲紋識別的錄音文件分離方法及裝置,以使得用戶可以從錄制文件中聽到清晰的錄音內(nèi)容,方便用戶的工作生活。
本發(fā)明的實施例一方面提供了一種基于聲紋識別的錄音文件分離裝置,所述裝置包括:聲紋提取模塊、對比模塊和編碼存儲模塊;
其中,所述聲紋提取模塊,用于提取錄音信號中的聲紋特征數(shù)據(jù);
所述對比模塊,用于將所述聲紋特征數(shù)據(jù)與預(yù)設(shè)語音模型進(jìn)行對比;
所述編碼存儲模塊,用于根據(jù)所述對比模塊的對比結(jié)果,對與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行單獨編碼,存儲為單獨的聲音文件。
可選的,所述聲紋提取模塊具體用于:
通過小波變換技術(shù),提取所述錄音信號中如下聲紋特征數(shù)據(jù):基音頻譜及其輪廓、基音幀的能量、基音共振峰的出現(xiàn)頻率及其軌跡、線性預(yù)測倒譜、線譜對、自相關(guān)和對數(shù)面積比、Mel頻率倒譜系數(shù)MFCC、感知線性預(yù)測。
可選的,所述預(yù)設(shè)語音模型包括以下至少一項:矢量化模型、隨機(jī)模型和神經(jīng)網(wǎng)絡(luò)模型。
可選的,所述編碼存儲模塊具體用于:
將與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行加強(qiáng)放大處理;對經(jīng)過加強(qiáng)放大處理后的錄音信號單體進(jìn)行單獨編碼。
可選的,所述裝置還包括降噪模塊,用于對采集到的音頻信號進(jìn)行降噪處理,得到所述錄音信號。
本發(fā)明的實施例另一方面提供了一種基于聲紋識別的錄音文件分離方法,所述方法包括:
提取錄音信號中的聲紋特征數(shù)據(jù);
將所述聲紋特征數(shù)據(jù)與預(yù)設(shè)語音模型進(jìn)行對比;
根據(jù)對比結(jié)果,對與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行單獨編碼,存儲為單獨的聲音文件。
可選的,所述提取錄音信號中的聲紋特征數(shù)據(jù),包括:
通過小波變換技術(shù),提取所述錄音信號中如下聲紋特征數(shù)據(jù):基音頻譜及其輪廓、基音幀的能量、基音共振峰的出現(xiàn)頻率及其軌跡、線性預(yù)測倒譜、線譜對、自相關(guān)和對數(shù)面積比、Mel頻率倒譜系數(shù)MFCC、感知線性預(yù)測。
可選的,所述預(yù)設(shè)語音模型包括以下至少一項:矢量化模型、隨機(jī)模型和神經(jīng)網(wǎng)絡(luò)模型。
可選的,所述對與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行單獨編碼,包括:
將與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行加強(qiáng)放大處理;
對經(jīng)過加強(qiáng)放大處理后的錄音信號單體進(jìn)行單獨編碼。
可選的,所述提取錄音信號中的聲紋特征數(shù)據(jù)之前,所述方法還包括:
對采集到的音頻信號進(jìn)行降噪處理,得到所述錄音信號。
本發(fā)明實施例所提供的一種基于聲紋識別的錄音文件分離方法及裝置,基于聲紋識別的錄音文件分離裝置提取錄音信號中的聲紋特征數(shù)據(jù);將所述聲紋特征數(shù)據(jù)與預(yù)設(shè)語音模型進(jìn)行對比;根據(jù)對比結(jié)果,對與相同的聲紋特征數(shù)據(jù)對應(yīng)的錄音信號單體進(jìn)行單獨編碼,存儲為單獨的聲音文件。如此,在錄制的聲音數(shù)據(jù)多且復(fù)雜時,通過將不同的聲音分離開并單獨存儲,使得用戶可以聽到清晰的錄音內(nèi)容,方便用戶的工作生活。
附圖說明
圖1為實現(xiàn)本發(fā)明實施例的一種可選的移動終端的硬件結(jié)構(gòu)示意圖;
圖2為本發(fā)明實施例提供的移動終端能夠操作的通信系統(tǒng)結(jié)構(gòu)示意圖;
圖3為本發(fā)明實施例提供的基于聲紋識別的錄音文件分離裝置的結(jié)構(gòu)示意圖;
圖4為本發(fā)明實施例提供的基于聲紋識別的錄音文件分離方法的流程圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述。
現(xiàn)在將參考附圖1來描述實現(xiàn)本發(fā)明各個實施例的移動終端。在后續(xù)的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說明,其本身并沒有特定的意義。因此,模塊與部件可以混合地使用。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于努比亞技術(shù)有限公司,未經(jīng)努比亞技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610077739.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





