[發(fā)明專利]一種可視化人聲分離系統(tǒng)、方法以及裝置有效
| 申請?zhí)枺?/td> | 202111437237.2 | 申請日: | 2021-11-30 |
| 公開(公告)號: | CN114464198B | 公開(公告)日: | 2023-06-06 |
| 發(fā)明(設計)人: | 屈丹;楊緒魁;李靜濤;閆紅剛;李喜坤;陳琦;邱澤宇 | 申請(專利權(quán))人: | 中國人民解放軍戰(zhàn)略支援部隊信息工程大學;鄭州信大先進技術(shù)研究院 |
| 主分類號: | G10L17/22 | 分類號: | G10L17/22;G10L21/10;G10L25/24;G06F16/11;G06F16/16 |
| 代理公司: | 鄭州大通專利商標代理有限公司 41111 | 代理人: | 石丹丹 |
| 地址: | 450000 河*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 可視化 人聲 分離 系統(tǒng) 方法 以及 裝置 | ||
1.一種可視化人聲分離系統(tǒng),其特征在于,該系統(tǒng)包括:
音/視頻格式轉(zhuǎn)換模塊,用于把上傳到系統(tǒng)中的文件轉(zhuǎn)換為和人聲分離算法模塊匹配的音頻格式;
人聲分離算法模塊,用于把要處理的音頻文件進行邏輯切分,按照時間先后順序進行分句,形成每句話包含說話人名稱、開始時間和結(jié)束時間的json文件;
分離結(jié)果展示模塊,用于把人聲分離算法模塊分割的結(jié)果在界面上展示,界面上半部分展示波形,下半部分展示分句的列表信息;列表中的每句話和波形圖上的標識層有對應關(guān)系,選中列表中的一句話后,波形圖上的標識層也會被選中,在列表中通過播放/暫停控制每行的語音播放,通過刪除、新增和修改操作來調(diào)整每句話的內(nèi)容;
可視化人聲分離調(diào)整模塊,用于通過播放/暫停控制列表中每個分句的單獨播放,觀察波形圖上語音能量有無及大小,反復微調(diào)每個分句的開始時間和結(jié)束時間從而調(diào)整時間邊界;具體包括:在波形圖上根據(jù)json文件解析出的每句話開始時間和結(jié)束時間,覆蓋一層半透明的標識層,通過標識層標識出波形界面上每句話的時間邊界;通過播放/暫停控制列表中每個分句的單獨播放,并觀察波形圖上語音能量有無及大小,從而對每句話的標識層通過左右拖動整體改變開始時間和結(jié)束時間,或者單獨左右拖動邊界來調(diào)整每句話的開始時間和結(jié)束時間,時間調(diào)整以后系統(tǒng)自動保存;
人聲分離任務管理模塊,用于管理上傳的人聲分離任務,用戶每次上傳的音/視頻作為一個單獨的任務來管理。
2.根據(jù)權(quán)利要求1所述的可視化人聲分離系統(tǒng),其特征在于,所述人聲分離算法模塊采用人工智能的處理方式,通過基于梅爾頻率倒譜系數(shù)和伽馬頻率倒譜系數(shù)混合特征的語音分割聚類,實現(xiàn)自動分離人聲。
3.一種可視化人聲分離方法,其特征在于,包括以下步驟:
步驟1,打開可視化人聲分離系統(tǒng),把要分離的音/視頻文件導入系統(tǒng)中;
步驟2,把音/視頻轉(zhuǎn)換成和人聲分離算法相匹配的音頻格式;
步驟3,把要處理的音頻文件進行邏輯切分,按時間先后順序進行分句,最終形成每句話包含說話人名稱、開始時間和結(jié)束時間的json文件;
步驟4,把分離后的結(jié)果在界面上進行展示,音頻文件以波形形式展示在上半部分,解析后的json文件以列表形式展示在下半部分;列表中的每句話和波形圖上的標識層有對應關(guān)系,選中列表中的一句話后,波形圖上的標識層也會被選中,在列表中通過播放/暫停控制每行的語音播放,通過刪除、新增和修改操作來調(diào)整每句話的內(nèi)容;
步驟5,在結(jié)果展示界面進行每句話的播放和調(diào)整,實現(xiàn)精準人聲分離;具體包括:在波形圖上根據(jù)json文件解析出的每句話開始時間和結(jié)束時間,覆蓋一層半透明的標識層,通過標識層標識出波形界面上每句話的時間邊界;通過播放/暫停控制列表中每個分句的單獨播放,并觀察波形圖上語音能量有無及大小,從而對每句話的標識層通過左右拖動整體改變開始時間和結(jié)束時間,或者單獨左右拖動邊界來調(diào)整每句話的開始時間和結(jié)束時間,時間調(diào)整以后系統(tǒng)自動保存;
步驟6,把分離好的人聲分句,根據(jù)需求進行選中導出。
4.根據(jù)權(quán)利要求3所述的可視化人聲分離方法,其特征在于,所述要分離的音/視頻文件存放到U盤、移動硬盤、光驅(qū)或者電腦硬盤這些存儲介質(zhì)中。
5.根據(jù)權(quán)利要求3所述的可視化人聲分離方法,其特征在于,所述把音/視頻轉(zhuǎn)換成和人聲分離算法相匹配的音頻格式,包括:
人聲分離算法在訓練的時候能識別的音頻格式是固定的,為了適配人聲分離算法,必須把導入的音/視頻格式轉(zhuǎn)換為訓練時候的音頻格式。
6.根據(jù)權(quán)利要求3所述的可視化人聲分離方法,其特征在于,所述把要處理的音頻文件進行邏輯切分,按時間先后順序進行分句,最終形成每句話包含說話人名稱、開始時間和結(jié)束時間的json文件,包括:
調(diào)用系統(tǒng)中的人聲分離算法把轉(zhuǎn)換后的音頻文件進行邏輯上的切分,把音頻文件進行分句后標記,每一個分句中包括說話人名稱、開始時間、結(jié)束時間和單句時長,分句以文本形式進行保存,分句是按照時間先后順序進行排列的,所有分句最后合并后形成一個json文件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍戰(zhàn)略支援部隊信息工程大學;鄭州信大先進技術(shù)研究院,未經(jīng)中國人民解放軍戰(zhàn)略支援部隊信息工程大學;鄭州信大先進技術(shù)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111437237.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





