[發(fā)明專利]用于標記說話人的方法、裝置和電子設(shè)備在審

申請?zhí)枺?/td>	202210139621.2	申請日：	2022-02-15
公開（公告）號：	CN114550728A	公開（公告）日：	2022-05-27
發(fā)明（設(shè)計）人：	劉藝;范文之;薛政;馬澤君	申請（專利權(quán)）人：	北京有竹居網(wǎng)絡(luò)技術(shù)有限公司
主分類號：	G10L17/02	分類號：	G10L17/02;G10L17/04;G10L17/14;G10L17/16;G10L25/51
代理公司：	泰和泰律師事務所 51219	代理人：	祝海燕
地址：	101299 北京市平***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	用于標記說話方法裝置電子設(shè)備
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種用于標記說話人的方法，其特征在于，包括：

獲取聲音數(shù)據(jù)幀序列，以及獲取與聲音數(shù)據(jù)幀序列中的聲音數(shù)據(jù)幀對應的聲源位置信息；

基于聲源位置信息，確定聲學模型的至少一種描述參數(shù)；

基于所述聲學模型，確定所述聲音數(shù)據(jù)幀序列的說話人標識序列，所述說話人標識序列中的說話人標識指示聲音數(shù)據(jù)幀序列中的聲音數(shù)據(jù)幀所對應的說話人。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述聲學模型為隱馬爾科夫模型。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于聲源位置信息，確定聲學模型的至少一種描述參數(shù)，包括：

基于聲源位置信息，確定聲學模型的狀態(tài)轉(zhuǎn)移概率。

4.根據(jù)權(quán)利要求1－3中任一項所述的方法，其特征在于，所述基于聲源位置信息，確定聲學模型的至少一種描述參數(shù)，包括：

基于聲源位置信息確定所述聲學模型中的狀態(tài)觀測概率。

5.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述基于聲源位置信息，確定聲學模型的狀態(tài)轉(zhuǎn)移概率，包括：

根據(jù)聲音數(shù)據(jù)幀對應的聲源位置向量，確定聲音數(shù)據(jù)幀的聲源位置標識；

對于聲音數(shù)據(jù)幀序列中的相鄰聲音數(shù)據(jù)幀，根據(jù)相鄰聲音數(shù)據(jù)幀的聲源位置標識，確定相鄰聲音數(shù)據(jù)幀之間的轉(zhuǎn)移概率；

根據(jù)所確定的轉(zhuǎn)移概率，確定聲學模型的狀態(tài)轉(zhuǎn)移概率。

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述根據(jù)聲音數(shù)據(jù)幀對應的聲源位置向量，確定聲音數(shù)據(jù)幀的聲源位置標識，包括：

將聲源位置向量中的最大向量分量所對應的聲源方向，確定為聲音數(shù)據(jù)幀的聲源位置標識。

7.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述對于聲音數(shù)據(jù)幀序列中的相鄰聲音數(shù)據(jù)幀，根據(jù)相鄰聲音數(shù)據(jù)幀的聲源位置標識，確定相鄰聲音數(shù)據(jù)幀之間的轉(zhuǎn)移概率，包括：

根據(jù)相鄰聲音數(shù)據(jù)幀對應的兩個聲源位置標識，確定相鄰聲音數(shù)據(jù)幀之間的聲源位置差；

若所述聲源位置差大于預設(shè)差距閾值，則確定相鄰聲音數(shù)據(jù)幀對應的說話人轉(zhuǎn)換；

若所述聲源位置差不大于預設(shè)差距閾值，則確定相鄰聲音數(shù)據(jù)幀對應的說話人不轉(zhuǎn)換；

根據(jù)所確定的說話人是否轉(zhuǎn)換，確定不同說話人之間對應的轉(zhuǎn)移概率。

8.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取與聲音數(shù)據(jù)幀序列中的聲音數(shù)據(jù)幀對應的聲源位置信息，包括：

對于聲音數(shù)據(jù)幀序列中的聲音數(shù)據(jù)幀，確定該聲音數(shù)據(jù)幀對應的聲源位置向量，其中，聲源位置向量中的各個分量指示聲源方向為各個預設(shè)方向的概率。

9.根據(jù)權(quán)利要求8所述的方法，其特征在于，所述方法還包括：

以聲音采集設(shè)備為中心，確定至少兩個預設(shè)方向；

根據(jù)聲音采集設(shè)備接收到聲音數(shù)據(jù)幀的方向信息，確定聲源位置向量。

10.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所述聲學模型，確定所述聲音數(shù)據(jù)幀序列的說話人標識序列，包括：

對聲音數(shù)據(jù)幀序列進行聚類，得到初始聚類結(jié)果，其中，所述初始聚類結(jié)果包括聚類中心和聚類中心的類簇，聚類中心指示說話人標識；

將所述初始聚類結(jié)果確定為聚類結(jié)果，以及基于聚類結(jié)果執(zhí)行第一步驟，其中，第一步驟包括：根據(jù)聚類結(jié)果，確定初始狀態(tài)分布；基于各個類簇所包括聲音數(shù)據(jù)幀，確定所述聲學模型中與說話人標識對應的狀態(tài)觀測概率；根據(jù)初始狀態(tài)分布、狀態(tài)轉(zhuǎn)移概率和所述狀態(tài)觀測概率，確定說話人標識序列；響應于預設(shè)停止條件滿足，輸出說話人標識序列；

響應于預設(shè)停止條件不滿足，根據(jù)所確定的說話人標識序列，更新聚類結(jié)果，以及基于更新后的聚類結(jié)果執(zhí)行所述第一步驟。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京有竹居網(wǎng)絡(luò)技術(shù)有限公司，未經(jīng)北京有竹居網(wǎng)絡(luò)技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210139621.2/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：化妝輔助方法及相關(guān)設(shè)備
下一篇：一種便于調(diào)節(jié)的電氣自動化高壓柜

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L17-00 講話者辨認或驗證

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】