[發明專利]一種基于雙向補償機制的文本相關說話人識別方法在審
| 申請號: | 202010820029.X | 申請日: | 2020-08-14 |
| 公開(公告)號: | CN111933150A | 公開(公告)日: | 2020-11-13 |
| 發明(設計)人: | 柳天馳;羅漢·庫馬爾·達斯;毛利克·馬達維;申省梅;李海洲;馬原 | 申請(專利權)人: | 北京澎思科技有限公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L17/02;G10L15/02;G10L15/22;G10L15/26;G10L25/24;G10L25/30 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 劉亞飛 |
| 地址: | 100000 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙向 補償 機制 文本 相關 說話 識別 方法 | ||
本申請實施例提供了一種基于雙向補償機制的文本相關說話人識別方法,該方法包括:獲取待識別音頻,并對所述待識別音頻進行提取處理,得到多個子音頻;確定每個子音頻在聲紋特征下的第一評價值,以及每個子音頻在內容特征下的第二評價值;針對每個子音頻,基于該子音頻的第二評價值,確定針對該子音頻的第一評價值的調整系數;所述調整系數和所述第二評價值負相關;基于各個所述調整系數,以及各個所述第一評價值,確定輸入所述待識別音頻的對象的識別結果。
技術領域
本申請涉及數據處理技術領域,具體而言,涉及一種基于雙向補償機制的文本相關說話人識別方法。
背景技術
在實際應用場景中對于音頻內容(語音)和音頻內容的說話人的識別準確度的需求也越來越高。
在具體實現過程中,一般采用語音識別模型對語音內容進行識別,采用對象識別模型對陳述語音內容的對象進行識別,進行識別的模型是相互獨立的,識別過程也是獨立實現的。
發明內容
有鑒于此,本申請實施例的目的在于提供一種基于雙向補償機制的文本相關說話人識別方法,實現通過一個模型對不同識別任務進行識別,同時,提高了識別結果的準確度。
第一方面,本申請實施例提供了一種基于雙向補償機制的文本相關說話人識別方法,該方法包括:
獲取待識別音頻,并對所述待識別音頻進行提取處理,得到多個子音頻;
確定每個子音頻在聲紋特征下的第一評價值,以及每個子音頻在內容特征下的第二評價值;
針對每個子音頻,基于該子音頻的第二評價值,確定針對該子音頻的第一評價值的調整系數;所述調整系數和所述第二評價值負相關;
基于各個所述調整系數,以及各個所述第一評價值,確定輸入所述待識別音頻的對象的識別結果。
在一種實施方式中,確定每個子音頻在聲紋特征下的第一評價值,以及每個子音頻在內容特征下的第二評價值,包括:
對所述多個子音頻進行語音特征提取,得到每個子音頻的語音特征;
將每個子音頻的語音特征輸入到訓練完成的聲紋特征提取模型,得到每個子音頻在聲紋特征下的第一評價值;
將每個子音頻的語音特征輸入到訓練完成的內容特征提取模型,得到每個子音頻在內容特征下的第二評價值。
在一種實施方式中,基于任一子音頻的第二評價值,確定針對任一子音頻的第一評價值的調整系數,包括:
S=α-1/(β+e-x)
其中,S為針對任一子音頻的第一評價值的調整系數,x為任一子音頻的第二評價值,e為自然常數,α、β均為常數。
在一種實施方式中,基于各個所述調整系數,以及各個所述第一評價值,確定輸入所述待識別音頻的對象的識別結果,包括:
針對每個調整系數,計算該調整系數和對應的第一評價值的乘積值;
將各個乘積值輸入到完成訓練的對象分類器,得到輸入所述待識別音頻的對象的識別結果。
第二方面,本申請實施例提供了一種基于雙向補償機制的文本相關說話人識別方法,該方法包括:
獲取待識別音頻,并對所述待識別音頻進行提取處理,得到多個子音頻;
確定每個子音頻在聲紋特征下的第一評價值,以及每個子音頻在內容特征下的第二評價值;
針對每個子音頻,基于該子音頻的第一評價值,確定針對該子音頻的第二評價值的調整系數;所述調整系數和所述第一評價值負相關;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京澎思科技有限公司,未經北京澎思科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010820029.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種碳纖維可紡瀝青及其制備方法和應用
- 下一篇:一種土木工程物料分離搗碎裝置





