[發(fā)明專利]一種可視化人聲分離系統(tǒng)、方法以及裝置有效

申請?zhí)枺?/td>	202111437237.2	申請日：	2021-11-30
公開（公告）號：	CN114464198B	公開（公告）日：	2023-06-06
發(fā)明（設計）人：	屈丹;楊緒魁;李靜濤;閆紅剛;李喜坤;陳琦;邱澤宇	申請（專利權(quán)）人：	中國人民解放軍戰(zhàn)略支援部隊信息工程大學;鄭州信大先進技術(shù)研究院
主分類號：	G10L17/22	分類號：	G10L17/22;G10L21/10;G10L25/24;G06F16/11;G06F16/16
代理公司：	鄭州大通專利商標代理有限公司 41111	代理人：	石丹丹
地址：	450000 河***	國省代碼：	河南;41
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種可視化人聲分離系統(tǒng) 方法以及裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種可視化人聲分離系統(tǒng)，其特征在于，該系統(tǒng)包括：

音/視頻格式轉(zhuǎn)換模塊，用于把上傳到系統(tǒng)中的文件轉(zhuǎn)換為和人聲分離算法模塊匹配的音頻格式；

人聲分離算法模塊，用于把要處理的音頻文件進行邏輯切分，按照時間先后順序進行分句，形成每句話包含說話人名稱、開始時間和結(jié)束時間的json文件；

分離結(jié)果展示模塊，用于把人聲分離算法模塊分割的結(jié)果在界面上展示，界面上半部分展示波形，下半部分展示分句的列表信息；列表中的每句話和波形圖上的標識層有對應關(guān)系，選中列表中的一句話后，波形圖上的標識層也會被選中，在列表中通過播放/暫停控制每行的語音播放，通過刪除、新增和修改操作來調(diào)整每句話的內(nèi)容；

可視化人聲分離調(diào)整模塊，用于通過播放/暫停控制列表中每個分句的單獨播放，觀察波形圖上語音能量有無及大小，反復微調(diào)每個分句的開始時間和結(jié)束時間從而調(diào)整時間邊界；具體包括：在波形圖上根據(jù)json文件解析出的每句話開始時間和結(jié)束時間，覆蓋一層半透明的標識層，通過標識層標識出波形界面上每句話的時間邊界；通過播放/暫停控制列表中每個分句的單獨播放，并觀察波形圖上語音能量有無及大小，從而對每句話的標識層通過左右拖動整體改變開始時間和結(jié)束時間，或者單獨左右拖動邊界來調(diào)整每句話的開始時間和結(jié)束時間，時間調(diào)整以后系統(tǒng)自動保存；

人聲分離任務管理模塊，用于管理上傳的人聲分離任務，用戶每次上傳的音/視頻作為一個單獨的任務來管理。

2.根據(jù)權(quán)利要求1所述的可視化人聲分離系統(tǒng)，其特征在于，所述人聲分離算法模塊采用人工智能的處理方式，通過基于梅爾頻率倒譜系數(shù)和伽馬頻率倒譜系數(shù)混合特征的語音分割聚類，實現(xiàn)自動分離人聲。

3.一種可視化人聲分離方法，其特征在于，包括以下步驟：

步驟1，打開可視化人聲分離系統(tǒng)，把要分離的音/視頻文件導入系統(tǒng)中；

步驟2，把音/視頻轉(zhuǎn)換成和人聲分離算法相匹配的音頻格式；

步驟3，把要處理的音頻文件進行邏輯切分，按時間先后順序進行分句，最終形成每句話包含說話人名稱、開始時間和結(jié)束時間的json文件；

步驟4，把分離后的結(jié)果在界面上進行展示，音頻文件以波形形式展示在上半部分，解析后的json文件以列表形式展示在下半部分；列表中的每句話和波形圖上的標識層有對應關(guān)系，選中列表中的一句話后，波形圖上的標識層也會被選中，在列表中通過播放/暫停控制每行的語音播放，通過刪除、新增和修改操作來調(diào)整每句話的內(nèi)容；

步驟5，在結(jié)果展示界面進行每句話的播放和調(diào)整，實現(xiàn)精準人聲分離；具體包括：在波形圖上根據(jù)json文件解析出的每句話開始時間和結(jié)束時間，覆蓋一層半透明的標識層，通過標識層標識出波形界面上每句話的時間邊界；通過播放/暫停控制列表中每個分句的單獨播放，并觀察波形圖上語音能量有無及大小，從而對每句話的標識層通過左右拖動整體改變開始時間和結(jié)束時間，或者單獨左右拖動邊界來調(diào)整每句話的開始時間和結(jié)束時間，時間調(diào)整以后系統(tǒng)自動保存；

步驟6，把分離好的人聲分句，根據(jù)需求進行選中導出。

4.根據(jù)權(quán)利要求3所述的可視化人聲分離方法，其特征在于，所述要分離的音/視頻文件存放到U盤、移動硬盤、光驅(qū)或者電腦硬盤這些存儲介質(zhì)中。

5.根據(jù)權(quán)利要求3所述的可視化人聲分離方法，其特征在于，所述把音/視頻轉(zhuǎn)換成和人聲分離算法相匹配的音頻格式，包括：

人聲分離算法在訓練的時候能識別的音頻格式是固定的，為了適配人聲分離算法，必須把導入的音/視頻格式轉(zhuǎn)換為訓練時候的音頻格式。

6.根據(jù)權(quán)利要求3所述的可視化人聲分離方法，其特征在于，所述把要處理的音頻文件進行邏輯切分，按時間先后順序進行分句，最終形成每句話包含說話人名稱、開始時間和結(jié)束時間的json文件，包括：

調(diào)用系統(tǒng)中的人聲分離算法把轉(zhuǎn)換后的音頻文件進行邏輯上的切分，把音頻文件進行分句后標記，每一個分句中包括說話人名稱、開始時間、結(jié)束時間和單句時長，分句以文本形式進行保存，分句是按照時間先后順序進行排列的，所有分句最后合并后形成一個json文件。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍戰(zhàn)略支援部隊信息工程大學;鄭州信大先進技術(shù)研究院，未經(jīng)中國人民解放軍戰(zhàn)略支援部隊信息工程大學;鄭州信大先進技術(shù)研究院許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111437237.2/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種血根堿的化學合成方法
下一篇：隧道施工造成地表沉降槽空間形態(tài)五維演化的預估方法

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L17-00 講話者辨認或驗證

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】