[發(fā)明專利]用于標記說話人的方法、裝置和電子設(shè)備在審
| 申請?zhí)枺?/td> | 202210139621.2 | 申請日: | 2022-02-15 |
| 公開(公告)號: | CN114550728A | 公開(公告)日: | 2022-05-27 |
| 發(fā)明(設(shè)計)人: | 劉藝;范文之;薛政;馬澤君 | 申請(專利權(quán))人: | 北京有竹居網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/14;G10L17/16;G10L25/51 |
| 代理公司: | 泰和泰律師事務所 51219 | 代理人: | 祝海燕 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 標記 說話 方法 裝置 電子設(shè)備 | ||
1.一種用于標記說話人的方法,其特征在于,包括:
獲取聲音數(shù)據(jù)幀序列,以及獲取與聲音數(shù)據(jù)幀序列中的聲音數(shù)據(jù)幀對應的聲源位置信息;
基于聲源位置信息,確定聲學模型的至少一種描述參數(shù);
基于所述聲學模型,確定所述聲音數(shù)據(jù)幀序列的說話人標識序列,所述說話人標識序列中的說話人標識指示聲音數(shù)據(jù)幀序列中的聲音數(shù)據(jù)幀所對應的說話人。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述聲學模型為隱馬爾科夫模型。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于聲源位置信息,確定聲學模型的至少一種描述參數(shù),包括:
基于聲源位置信息,確定聲學模型的狀態(tài)轉(zhuǎn)移概率。
4.根據(jù)權(quán)利要求1-3中任一項所述的方法,其特征在于,所述基于聲源位置信息,確定聲學模型的至少一種描述參數(shù),包括:
基于聲源位置信息確定所述聲學模型中的狀態(tài)觀測概率。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于聲源位置信息,確定聲學模型的狀態(tài)轉(zhuǎn)移概率,包括:
根據(jù)聲音數(shù)據(jù)幀對應的聲源位置向量,確定聲音數(shù)據(jù)幀的聲源位置標識;
對于聲音數(shù)據(jù)幀序列中的相鄰聲音數(shù)據(jù)幀,根據(jù)相鄰聲音數(shù)據(jù)幀的聲源位置標識,確定相鄰聲音數(shù)據(jù)幀之間的轉(zhuǎn)移概率;
根據(jù)所確定的轉(zhuǎn)移概率,確定聲學模型的狀態(tài)轉(zhuǎn)移概率。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)聲音數(shù)據(jù)幀對應的聲源位置向量,確定聲音數(shù)據(jù)幀的聲源位置標識,包括:
將聲源位置向量中的最大向量分量所對應的聲源方向,確定為聲音數(shù)據(jù)幀的聲源位置標識。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述對于聲音數(shù)據(jù)幀序列中的相鄰聲音數(shù)據(jù)幀,根據(jù)相鄰聲音數(shù)據(jù)幀的聲源位置標識,確定相鄰聲音數(shù)據(jù)幀之間的轉(zhuǎn)移概率,包括:
根據(jù)相鄰聲音數(shù)據(jù)幀對應的兩個聲源位置標識,確定相鄰聲音數(shù)據(jù)幀之間的聲源位置差;
若所述聲源位置差大于預設(shè)差距閾值,則確定相鄰聲音數(shù)據(jù)幀對應的說話人轉(zhuǎn)換;
若所述聲源位置差不大于預設(shè)差距閾值,則確定相鄰聲音數(shù)據(jù)幀對應的說話人不轉(zhuǎn)換;
根據(jù)所確定的說話人是否轉(zhuǎn)換,確定不同說話人之間對應的轉(zhuǎn)移概率。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取與聲音數(shù)據(jù)幀序列中的聲音數(shù)據(jù)幀對應的聲源位置信息,包括:
對于聲音數(shù)據(jù)幀序列中的聲音數(shù)據(jù)幀,確定該聲音數(shù)據(jù)幀對應的聲源位置向量,其中,聲源位置向量中的各個分量指示聲源方向為各個預設(shè)方向的概率。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述方法還包括:
以聲音采集設(shè)備為中心,確定至少兩個預設(shè)方向;
根據(jù)聲音采集設(shè)備接收到聲音數(shù)據(jù)幀的方向信息,確定聲源位置向量。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述聲學模型,確定所述聲音數(shù)據(jù)幀序列的說話人標識序列,包括:
對聲音數(shù)據(jù)幀序列進行聚類,得到初始聚類結(jié)果,其中,所述初始聚類結(jié)果包括聚類中心和聚類中心的類簇,聚類中心指示說話人標識;
將所述初始聚類結(jié)果確定為聚類結(jié)果,以及基于聚類結(jié)果執(zhí)行第一步驟,其中,第一步驟包括:根據(jù)聚類結(jié)果,確定初始狀態(tài)分布;基于各個類簇所包括聲音數(shù)據(jù)幀,確定所述聲學模型中與說話人標識對應的狀態(tài)觀測概率;根據(jù)初始狀態(tài)分布、狀態(tài)轉(zhuǎn)移概率和所述狀態(tài)觀測概率,確定說話人標識序列;響應于預設(shè)停止條件滿足,輸出說話人標識序列;
響應于預設(shè)停止條件不滿足,根據(jù)所確定的說話人標識序列,更新聚類結(jié)果,以及基于更新后的聚類結(jié)果執(zhí)行所述第一步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京有竹居網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京有竹居網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210139621.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





