[發(fā)明專利]后創(chuàng)建聲紋的會議語音轉(zhuǎn)寫方法、裝置及存儲介質(zhì)在審

申請?zhí)枺?/td>	202011069637.8	申請日：	2020-10-09
公開（公告）號：	CN111933144A	公開（公告）日：	2020-11-13
發(fā)明（設(shè)計(jì)）人：	皮慧斌;邊翀;栗紅霞;梁祎;管明堯;韓哲吉	申請（專利權(quán)）人：	融智通科技（北京）股份有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L17/00;G10L17/02;G10L17/04;G10L17/06;G10L25/24
代理公司：	北京眾元弘策知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11462	代理人：	李超
地址：	100085 北京市海***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	創(chuàng)建聲紋會議語音轉(zhuǎn)寫方法裝置存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供后創(chuàng)建聲紋的會議語音轉(zhuǎn)寫方法、裝置及存儲介質(zhì)，通過會議結(jié)束后從錄音文件中創(chuàng)建聲紋，并對錄音文件再次轉(zhuǎn)寫，讓未能提前創(chuàng)建參會方聲紋模型的會議，也能獲得對話式的增強(qiáng)型會議記錄。通過在會議結(jié)束后從錄音文件創(chuàng)建聲紋并再次轉(zhuǎn)寫，實(shí)現(xiàn)了對轉(zhuǎn)寫記錄的增強(qiáng)。本發(fā)明通過采用專用工具，從會議的錄音文件和轉(zhuǎn)寫記錄，來創(chuàng)建聲紋，進(jìn)而后期花費(fèi)少量的人工來補(bǔ)充聲紋，省去了人工再完整聽一遍錄音去補(bǔ)充所花費(fèi)的大量時間。解決了會議開啟前聲紋缺失這種情況下，會議語音轉(zhuǎn)寫系統(tǒng)這種人工智能，使用不便捷、不智能的問題。

技術(shù)領(lǐng)域

本發(fā)明屬于語音會議及信息處理技術(shù)領(lǐng)域，具體涉及后創(chuàng)建聲紋的會議語音轉(zhuǎn)寫方法、裝置及存儲介質(zhì)。

背景技術(shù)

隨著科技進(jìn)步，會議記錄系統(tǒng)或會議語音轉(zhuǎn)錄系統(tǒng)已實(shí)現(xiàn)自動快速地得到會議記錄，包括發(fā)言人、發(fā)言內(nèi)容等?，F(xiàn)在的會議語音轉(zhuǎn)寫系統(tǒng)，可以對會議進(jìn)行實(shí)時轉(zhuǎn)寫，或者是對錄音文件進(jìn)行轉(zhuǎn)寫。而功能更加強(qiáng)大的一些系統(tǒng)，還能區(qū)分各參會方，轉(zhuǎn)寫是對話式的，但是前提條件是必須要先創(chuàng)建好參會方的聲紋模型。

通常，現(xiàn)有產(chǎn)品在進(jìn)行發(fā)言人識別時需要提前收集并存儲參會相關(guān)人員的語音特征信息，然后通過錄制的語音信息與存儲的用戶語音特征信息進(jìn)行對比從而辨識出和語音片段對應(yīng)的發(fā)言用戶。但實(shí)際上開會的參會人員往往不固定或參會人員的臨時變化，使現(xiàn)有技術(shù)的工作流程受限，而且有些特殊會議，如果提前收集參會人員的語音特征信息甚至加以存儲還存在安全隱患。

由于聲紋缺失導(dǎo)致沒有參會方信息的轉(zhuǎn)寫記錄，大部分情況下是不能滿足會議記錄的要求，還需要人工再進(jìn)行處理，例如重新聽一遍，補(bǔ)充各時間段每句話的具體發(fā)言人信息。

發(fā)明內(nèi)容

針對現(xiàn)有技術(shù)中存在的上述缺陷，為解決會議前未能采集參會人聲紋的會議語音轉(zhuǎn)寫記錄問題，本發(fā)明提供了后創(chuàng)建聲紋的會議語音轉(zhuǎn)寫方法、裝置及存儲介質(zhì)。

為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明的采用以下技術(shù)方案。

第一方面，本發(fā)明提供了一種支持后創(chuàng)建聲紋的會議語音轉(zhuǎn)寫方法，包括：

步驟1、對會議語音文件進(jìn)行轉(zhuǎn)寫，生成會議記錄文本文件；

步驟2、通過操作開始播放/停止播放按鈕，從會議語音文件中選取語音片段及該語音片段開始時間至結(jié)束時間對應(yīng)的文本片段；

步驟3、對所選取的語音片段及其對應(yīng)的文本片段進(jìn)行標(biāo)記；

步驟4、確認(rèn)語音片段對應(yīng)的發(fā)言人身份信息，將該語音片段作為所述發(fā)言人的聲音數(shù)據(jù)進(jìn)行聲紋特征提取，創(chuàng)建所述發(fā)言人的聲紋；

步驟5、判斷是否存在未創(chuàng)建聲紋的發(fā)言人，如果存在則返回步驟2，否則執(zhí)行步驟6；

步驟6、在已創(chuàng)建聲紋的情況下，重新對會議語音文件進(jìn)行轉(zhuǎn)寫，檢查是否存在不能識別的發(fā)言人；如果不存在不能識別的發(fā)言人，則完成會議語音轉(zhuǎn)寫；如果存在不能識別的發(fā)言人，則標(biāo)記為未知發(fā)言人。

可選地，在步驟6中，還包括針對未知發(fā)言人進(jìn)行如下處理：

獲取未知發(fā)言人的語音片段，接收經(jīng)用戶核實(shí)確認(rèn)的發(fā)言人身份，如果發(fā)言人的聲紋已創(chuàng)建，使用該“未知發(fā)言人的語音片段”對該發(fā)言人的聲紋進(jìn)行修正；如果發(fā)言人的聲紋尚未創(chuàng)建，則返回步驟2的方法創(chuàng)建該發(fā)言人的聲紋。

可選地，創(chuàng)建聲紋的方法包括：

對語音進(jìn)行預(yù)處理和特征提取，然后通過聲紋模型訓(xùn)練得到該發(fā)言人的聲紋模型；所述預(yù)處理方法包括靜音檢測、去噪、解混響；

提取到的特征包括MFCC，使用的聲紋模型算法是GMM-UBM聯(lián)合模型，即高斯混合模型-通用背景模型聯(lián)合模型；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于融智通科技（北京）股份有限公司，未經(jīng)融智通科技（北京）股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011069637.8/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】