[發(fā)明專利]一種可視化人聲分離系統(tǒng)、方法以及裝置有效

申請(qǐng)?zhí)枺?/td>	202111437237.2	申請(qǐng)日：	2021-11-30
公開(kāi)（公告）號(hào)：	CN114464198B	公開(kāi)（公告）日：	2023-06-06
發(fā)明（設(shè)計(jì)）人：	屈丹;楊緒魁;李靜濤;閆紅剛;李喜坤;陳琦;邱澤宇	申請(qǐng)（專利權(quán)）人：	中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué);鄭州信大先進(jìn)技術(shù)研究院
主分類號(hào)：	G10L17/22	分類號(hào)：	G10L17/22;G10L21/10;G10L25/24;G06F16/11;G06F16/16
代理公司：	鄭州大通專利商標(biāo)代理有限公司 41111	代理人：	石丹丹
地址：	450000 河***	國(guó)省代碼：	河南;41
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種可視化人聲分離系統(tǒng) 方法以及裝置
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書】：

本發(fā)明屬于人工智能人聲分離技術(shù)領(lǐng)域，特別涉及一種可視化人聲分離系統(tǒng)、方法以及裝置，該方法包括打開(kāi)可視化人聲分離系統(tǒng)，把要分離的音/視頻文件導(dǎo)入系統(tǒng)中；把音/視頻轉(zhuǎn)換成和人聲分離算法相匹配的音頻格式；把要處理的音頻文件進(jìn)行邏輯切分，按時(shí)間先后順序進(jìn)行分句，最終形成每句話包含說(shuō)話人名稱、開(kāi)始時(shí)間和結(jié)束時(shí)間的json文件；把分離后的結(jié)果在界面上進(jìn)行展示，音頻文件以波形形式展示在上半部分，解析后的json文件以列表形式展示在下半部分；在結(jié)果展示界面進(jìn)行每句話的播放和調(diào)整，實(shí)現(xiàn)精準(zhǔn)人聲分離；把分離好的人聲分句，根據(jù)需求進(jìn)行選中導(dǎo)出。本發(fā)明在人工智能人聲分離算法基礎(chǔ)上，進(jìn)行界面可視化的手動(dòng)調(diào)整，達(dá)到精準(zhǔn)人聲分離效果。

技術(shù)領(lǐng)域

本發(fā)明屬于人工智能人聲分離技術(shù)領(lǐng)域，特別涉及一種可視化人聲分離系統(tǒng)、方法以及裝置。

背景技術(shù)

隨著經(jīng)濟(jì)社會(huì)的發(fā)展，電信詐騙案件呈逐年上升趨勢(shì)，通話記錄中一般是包含兩個(gè)人聲音的單通道文件，為進(jìn)一步確定犯罪分子的身份，需要把兩個(gè)人的通話記錄進(jìn)行分離，形成一個(gè)說(shuō)話人一份音頻文件這種形式，便于以后從聲紋庫(kù)中檢索犯罪嫌疑人或進(jìn)行1:1的聲紋鑒定。

因?yàn)樯婕胺缸锵右扇松矸菡J(rèn)定，就需要更精準(zhǔn)的人聲分離方法，隨著人工智能的發(fā)展，使用深度學(xué)習(xí)多層神經(jīng)網(wǎng)絡(luò)模式，已經(jīng)使人聲分離正確率有了很大的提高，但是還不能保證100%的準(zhǔn)確性。在人工智能算法正確率基礎(chǔ)上，有沒(méi)有更精準(zhǔn)的人聲分離方法，成為了亟待解決的問(wèn)題。

發(fā)明內(nèi)容

針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題，本發(fā)明提出一種可視化人聲分離系統(tǒng)、方法以及裝置，在人工智能人聲分離算法基礎(chǔ)上，進(jìn)行界面可視化的手動(dòng)調(diào)整，達(dá)到精準(zhǔn)的人聲分離效果。

為了實(shí)現(xiàn)上述目的，本發(fā)明采用以下的技術(shù)方案：

本發(fā)明提供了一種可視化人聲分離系統(tǒng)，該系統(tǒng)包括：

音/視頻格式轉(zhuǎn)換模塊，用于把上傳到系統(tǒng)中的文件轉(zhuǎn)換為和人聲分離算法模塊匹配的音頻格式；

人聲分離算法模塊，用于把要處理的音頻文件進(jìn)行邏輯切分，按照時(shí)間先后順序進(jìn)行分句，形成每句話包含說(shuō)話人名稱、開(kāi)始時(shí)間和結(jié)束時(shí)間的json文件；

分離結(jié)果展示模塊，用于把人聲分離算法模塊分割的結(jié)果在界面上展示，界面上半部分展示波形，下半部分展示分句的列表信息；

可視化人聲分離調(diào)整模塊，用于通過(guò)播放/暫停控制列表中每個(gè)分句的單獨(dú)播放，觀察波形圖上語(yǔ)音能量有無(wú)及大小，反復(fù)微調(diào)每個(gè)分句的開(kāi)始時(shí)間和結(jié)束時(shí)間從而調(diào)整時(shí)間邊界；

人聲分離任務(wù)管理模塊，用于管理上傳的人聲分離任務(wù)，用戶每次上傳的音/視頻作為一個(gè)單獨(dú)的任務(wù)來(lái)管理。

進(jìn)一步地，所述人聲分離算法模塊采用人工智能的處理方式，通過(guò)基于梅爾頻率倒譜系數(shù)和伽馬頻率倒譜系數(shù)混合特征的語(yǔ)音分割聚類，實(shí)現(xiàn)自動(dòng)分離人聲。

本發(fā)明還提供了一種可視化人聲分離方法，包括以下步驟：

打開(kāi)可視化人聲分離系統(tǒng)，把要分離的音/視頻文件導(dǎo)入系統(tǒng)中；

把音/視頻轉(zhuǎn)換成和人聲分離算法相匹配的音頻格式；

把要處理的音頻文件進(jìn)行邏輯切分，按時(shí)間先后順序進(jìn)行分句，最終形成每句話包含說(shuō)話人名稱、開(kāi)始時(shí)間和結(jié)束時(shí)間的json文件；

把分離后的結(jié)果在界面上進(jìn)行展示，音頻文件以波形形式展示在上半部分，解析后的json文件以列表形式展示在下半部分；

在結(jié)果展示界面進(jìn)行每句話的播放和調(diào)整，實(shí)現(xiàn)精準(zhǔn)人聲分離；

把分離好的人聲分句，根據(jù)需求進(jìn)行選中導(dǎo)出。

進(jìn)一步地，所述要分離的音/視頻文件存放到U盤、移動(dòng)硬盤、光驅(qū)或者電腦硬盤這些存儲(chǔ)介質(zhì)中。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué);鄭州信大先進(jìn)技術(shù)研究院，未經(jīng)中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué);鄭州信大先進(jìn)技術(shù)研究院許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111437237.2/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：一種血根堿的化學(xué)合成方法
下一篇：隧道施工造成地表沉降槽空間形態(tài)五維演化的預(yù)估方法

同類專利

專利分類

G 物理

G10 樂(lè)器；聲學(xué)
G10L 語(yǔ)音分析或合成；語(yǔ)音識(shí)別；音頻分析或處理
G10L17-00 講話者辨認(rèn)或驗(yàn)證

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】