[發(fā)明專利]一種基于信息傳遞的說話人聚類方法有效
| 申請?zhí)枺?/td> | 200710178363.4 | 申請日: | 2007-11-29 |
| 公開(公告)號: | CN101452704A | 公開(公告)日: | 2009-06-10 |
| 發(fā)明(設計)人: | 顏永紅;呂萍;張翔 | 申請(專利權(quán))人: | 中國科學院聲學研究所;北京中科信利技術(shù)有限公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L15/08 |
| 代理公司: | 北京泛華偉業(yè)知識產(chǎn)權(quán)代理有限公司 | 代理人: | 王 勇 |
| 地址: | 100080北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 信息 傳遞 說話 人聚類 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于語音識別技術(shù)領(lǐng)域,具體地說,本發(fā)明涉及一種說話人聚類方法。?
背景技術(shù)
說話人聚類是近年來語音信號處理領(lǐng)域的一個研究熱點,被廣泛應用于語音識別和說話人識別等領(lǐng)域。這項技術(shù)通常與說話人分段一起應用,也就是通常所說的說話人分段聚類。說話人聚類就是將分段后的語音數(shù)據(jù)進行分類,將不同說話人的語音數(shù)據(jù)分配到不同的類里。?
說話人聚類至今已有許多方法,可以分為兩類:有監(jiān)督算法和無監(jiān)督算法。有監(jiān)督聚類一般是指已知對話中說話人的個數(shù),按照說話人的個數(shù)進行聚類;無監(jiān)督說話人聚類一般是指對話中說話人的個數(shù)未知,聚類過程找到一個最優(yōu)的聚類數(shù)目以及其相應的聚類結(jié)果。目前,說話人聚類領(lǐng)域最為廣泛應用的是基于層次聚類框架的算法,層次聚類初始化計算所有語音段兩兩之間的距離,尋找距離最近的兩段合并成一段,并更新計算其他語音段與該新語音段之間的距離,重復此過程直到得到所需要的聚類數(shù)目或者滿足某一全局準則。但是,這種算法魯棒性還有待提高。同時,此算法需要反復的計算各類與新類之間的距離(相似度),這增加了算法的運行時間。因此,現(xiàn)有的很多方法,都是基于此方法上的改進,目的是增強算法的魯棒性和速度。?
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,針對語音信號的特點,通過不斷迭代計算各數(shù)據(jù)段之間的r值和a值,將這兩個值作為兩段之間的兩種交互信息,形成信息傳遞,從而提出一種魯棒且快速有效的新的無監(jiān)督和有監(jiān)督說話人聚類方法。?
為實現(xiàn)上述發(fā)明目的,本發(fā)明提供的基于信息傳遞的說話人聚類方法(可參考圖1)包括初始化過程和尋找聚類中心過程;?
其中初始化過程包括如下步驟:?
1)計算兩兩語音數(shù)據(jù)段(以下簡稱數(shù)據(jù)段)之間的相似度s(i,k),其中k≠i;?
2)設定各數(shù)據(jù)段作為聚類中心的優(yōu)先度s(k,k),其中k表示第k個數(shù)據(jù)段,將所有的有效值a(i,k)初始化為零,下文中將有效值(availability)簡稱為a值;?
尋找聚類中心過程包括如下子步驟:?
3)根據(jù)兩兩數(shù)據(jù)段之間的a值和各數(shù)據(jù)段的優(yōu)先度,計算兩兩數(shù)據(jù)段之間的責任值r(i,k),下文中將責任值(responsibility)簡稱為r值;根據(jù)各數(shù)據(jù)段的r值,計算兩兩數(shù)據(jù)段之間的a值;?
4)合并r值和a值,以該合并值決策聚類中心;?
5)重復執(zhí)行步驟3)、4),直到找到穩(wěn)定的聚類中心,結(jié)束聚類,統(tǒng)計聚類數(shù)目;?
以上各步驟中,i、k分別表示第i和第k個數(shù)據(jù)段。?
上述技術(shù)方案中,所述步驟1)中,所述相似度由兩兩數(shù)據(jù)段的距離得出,所述距離可以是歐式距離、馬氏距離、KL距離或GLR距離。?
上述技術(shù)方案中,所述步驟2)中,所述各數(shù)據(jù)段作為聚類中心的優(yōu)先度s(k,k)均設定為所有相似度的中值。?
上述技術(shù)方案中,所述步驟3)中,計算兩兩數(shù)據(jù)段之間的責任值r(i,k)的方法如下:?
上式中r(i,k)表示第i個數(shù)據(jù)段與第k個數(shù)據(jù)段的r值,N表示語音段的數(shù)目。?
上述技術(shù)方案中,所述步驟3)中,計算兩兩數(shù)據(jù)段之間a值的方法如下:?
當k=i時?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院聲學研究所;北京中科信利技術(shù)有限公司,未經(jīng)中國科學院聲學研究所;北京中科信利技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710178363.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





