[發(fā)明專利]一種可視化人聲分離系統(tǒng)、方法以及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 202111437237.2 | 申請(qǐng)日: | 2021-11-30 |
| 公開(kāi)(公告)號(hào): | CN114464198B | 公開(kāi)(公告)日: | 2023-06-06 |
| 發(fā)明(設(shè)計(jì))人: | 屈丹;楊緒魁;李靜濤;閆紅剛;李喜坤;陳琦;邱澤宇 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué);鄭州信大先進(jìn)技術(shù)研究院 |
| 主分類號(hào): | G10L17/22 | 分類號(hào): | G10L17/22;G10L21/10;G10L25/24;G06F16/11;G06F16/16 |
| 代理公司: | 鄭州大通專利商標(biāo)代理有限公司 41111 | 代理人: | 石丹丹 |
| 地址: | 450000 河*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 可視化 人聲 分離 系統(tǒng) 方法 以及 裝置 | ||
本發(fā)明屬于人工智能人聲分離技術(shù)領(lǐng)域,特別涉及一種可視化人聲分離系統(tǒng)、方法以及裝置,該方法包括打開(kāi)可視化人聲分離系統(tǒng),把要分離的音/視頻文件導(dǎo)入系統(tǒng)中;把音/視頻轉(zhuǎn)換成和人聲分離算法相匹配的音頻格式;把要處理的音頻文件進(jìn)行邏輯切分,按時(shí)間先后順序進(jìn)行分句,最終形成每句話包含說(shuō)話人名稱、開(kāi)始時(shí)間和結(jié)束時(shí)間的json文件;把分離后的結(jié)果在界面上進(jìn)行展示,音頻文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;在結(jié)果展示界面進(jìn)行每句話的播放和調(diào)整,實(shí)現(xiàn)精準(zhǔn)人聲分離;把分離好的人聲分句,根據(jù)需求進(jìn)行選中導(dǎo)出。本發(fā)明在人工智能人聲分離算法基礎(chǔ)上,進(jìn)行界面可視化的手動(dòng)調(diào)整,達(dá)到精準(zhǔn)人聲分離效果。
技術(shù)領(lǐng)域
本發(fā)明屬于人工智能人聲分離技術(shù)領(lǐng)域,特別涉及一種可視化人聲分離系統(tǒng)、方法以及裝置。
背景技術(shù)
隨著經(jīng)濟(jì)社會(huì)的發(fā)展,電信詐騙案件呈逐年上升趨勢(shì),通話記錄中一般是包含兩個(gè)人聲音的單通道文件,為進(jìn)一步確定犯罪分子的身份,需要把兩個(gè)人的通話記錄進(jìn)行分離,形成一個(gè)說(shuō)話人一份音頻文件這種形式,便于以后從聲紋庫(kù)中檢索犯罪嫌疑人或進(jìn)行1:1的聲紋鑒定。
因?yàn)樯婕胺缸锵右扇松矸菡J(rèn)定,就需要更精準(zhǔn)的人聲分離方法,隨著人工智能的發(fā)展,使用深度學(xué)習(xí)多層神經(jīng)網(wǎng)絡(luò)模式,已經(jīng)使人聲分離正確率有了很大的提高,但是還不能保證100%的準(zhǔn)確性。在人工智能算法正確率基礎(chǔ)上,有沒(méi)有更精準(zhǔn)的人聲分離方法,成為了亟待解決的問(wèn)題。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提出一種可視化人聲分離系統(tǒng)、方法以及裝置,在人工智能人聲分離算法基礎(chǔ)上,進(jìn)行界面可視化的手動(dòng)調(diào)整,達(dá)到精準(zhǔn)的人聲分離效果。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下的技術(shù)方案:
本發(fā)明提供了一種可視化人聲分離系統(tǒng),該系統(tǒng)包括:
音/視頻格式轉(zhuǎn)換模塊,用于把上傳到系統(tǒng)中的文件轉(zhuǎn)換為和人聲分離算法模塊匹配的音頻格式;
人聲分離算法模塊,用于把要處理的音頻文件進(jìn)行邏輯切分,按照時(shí)間先后順序進(jìn)行分句,形成每句話包含說(shuō)話人名稱、開(kāi)始時(shí)間和結(jié)束時(shí)間的json文件;
分離結(jié)果展示模塊,用于把人聲分離算法模塊分割的結(jié)果在界面上展示,界面上半部分展示波形,下半部分展示分句的列表信息;
可視化人聲分離調(diào)整模塊,用于通過(guò)播放/暫停控制列表中每個(gè)分句的單獨(dú)播放,觀察波形圖上語(yǔ)音能量有無(wú)及大小,反復(fù)微調(diào)每個(gè)分句的開(kāi)始時(shí)間和結(jié)束時(shí)間從而調(diào)整時(shí)間邊界;
人聲分離任務(wù)管理模塊,用于管理上傳的人聲分離任務(wù),用戶每次上傳的音/視頻作為一個(gè)單獨(dú)的任務(wù)來(lái)管理。
進(jìn)一步地,所述人聲分離算法模塊采用人工智能的處理方式,通過(guò)基于梅爾頻率倒譜系數(shù)和伽馬頻率倒譜系數(shù)混合特征的語(yǔ)音分割聚類,實(shí)現(xiàn)自動(dòng)分離人聲。
本發(fā)明還提供了一種可視化人聲分離方法,包括以下步驟:
打開(kāi)可視化人聲分離系統(tǒng),把要分離的音/視頻文件導(dǎo)入系統(tǒng)中;
把音/視頻轉(zhuǎn)換成和人聲分離算法相匹配的音頻格式;
把要處理的音頻文件進(jìn)行邏輯切分,按時(shí)間先后順序進(jìn)行分句,最終形成每句話包含說(shuō)話人名稱、開(kāi)始時(shí)間和結(jié)束時(shí)間的json文件;
把分離后的結(jié)果在界面上進(jìn)行展示,音頻文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;
在結(jié)果展示界面進(jìn)行每句話的播放和調(diào)整,實(shí)現(xiàn)精準(zhǔn)人聲分離;
把分離好的人聲分句,根據(jù)需求進(jìn)行選中導(dǎo)出。
進(jìn)一步地,所述要分離的音/視頻文件存放到U盤、移動(dòng)硬盤、光驅(qū)或者電腦硬盤這些存儲(chǔ)介質(zhì)中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué);鄭州信大先進(jìn)技術(shù)研究院,未經(jīng)中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué);鄭州信大先進(jìn)技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111437237.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)可視化模型的處理方法及裝置
- 一種可視化內(nèi)容分發(fā)方法及系統(tǒng)
- 數(shù)據(jù)可視化圖形快速應(yīng)用方法及系統(tǒng)
- 基于有效信息的流場(chǎng)可視化視圖量化方法
- 可視化報(bào)表的制作方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)
- 一種可視化圖形快速應(yīng)用與傳輸?shù)姆椒跋到y(tǒng)
- 一種可視化數(shù)據(jù)模型編排系統(tǒng)和編排方法
- 一種供水行業(yè)機(jī)房3D可視化運(yùn)維管理系統(tǒng)
- 一種電網(wǎng)數(shù)據(jù)可視化方法、裝置、設(shè)備及介質(zhì)
- 一種大場(chǎng)景城市建筑實(shí)時(shí)三維可視化的方法





