[發(fā)明專利]一種基于人聲模型的聲音分離方法和裝置以及設備在審
| 申請?zhí)枺?/td> | 202010364792.6 | 申請日: | 2020-04-30 |
| 公開(公告)號: | CN111583932A | 公開(公告)日: | 2020-08-25 |
| 發(fā)明(設計)人: | 肖龍源;李稀敏;葉志堅;劉曉葳 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/02 |
| 代理公司: | 廈門原創(chuàng)專利事務所(普通合伙) 35101 | 代理人: | 黃一敏 |
| 地址: | 361000 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人聲 模型 聲音 分離 方法 裝置 以及 設備 | ||
本發(fā)明公開了一種基于人聲模型的聲音分離方法和裝置以及設備。其中,所述方法包括:采集每個參加音頻會議的參會人員的聲音數(shù)據(jù)和個人特征,對該采集的每個參會人員的聲音數(shù)據(jù)進行聲紋特征提取,構建關聯(lián)該個人特征和對應該個人特征的聲紋特征的人聲模型,和對音頻會議內容進行對應該人聲模型的人聲分離,按時間戳方式,將該人聲分離后的音頻會議內容中的每個參會人員的聲音數(shù)據(jù)分別進行關聯(lián)該個人特征的標記,根據(jù)該經(jīng)分別標記后的每個參會人員的聲音數(shù)據(jù),形成該音頻會議內容的文本會議記錄。通過上述方式,能夠實現(xiàn)無需人工能夠根據(jù)音頻會議內容進行人聲分離形成文本會議記錄,能夠提高該進行人聲分離形成的文本會議記錄的準確率。
技術領域
本發(fā)明涉及聲音分離技術領域,尤其涉及一種基于人聲模型的聲音分離方法和裝置以及設備。
背景技術
音頻會議,是指兩個或兩個以上不同地方的個人或群體,通過傳輸線路及多媒體設備,將聲音互傳,實現(xiàn)即時且互動的溝通,以實現(xiàn)同時進行會議。
然而,現(xiàn)有的聲音分離方案,在應用在音頻會議的會議記錄場景時,一般是由人工根據(jù)音頻會議內容進行人聲分離形成文本會議記錄,但是由于該音頻會議內容會涉及多人人聲和人耳對人聲的分辨率是有限的,而且由于人的主動性,導致該進行人聲分離形成的文本會議記錄的準確率一般。
發(fā)明內容
有鑒于此,本發(fā)明的目的在于提出一種基于人聲模型的聲音分離方法和裝置以及設備,能夠實現(xiàn)無需人工能夠根據(jù)音頻會議內容進行人聲分離形成文本會議記錄,能夠提高該進行人聲分離形成的文本會議記錄的準確率。
根據(jù)本發(fā)明的一個方面,提供一種基于人聲模型的聲音分離方法,包括:采集每個參加音頻會議的參會人員的聲音數(shù)據(jù)和個人特征;其中,所述個人特征包括性別和/或年齡和/或工作單位和/或工作地點和/或工作電話;對所述采集的每個參會人員的聲音數(shù)據(jù)進行聲紋特征提取;構建關聯(lián)所述個人特征和對應所述個人特征的聲紋特征的人聲模型;對音頻會議內容進行對應所述人聲模型的人聲分離;其中,所述音頻會議內容關聯(lián)的參會人員為所述采集的每個參會人員的聲音數(shù)據(jù)對應的參會人員中的部分人員或全部人員;按時間戳方式,將所述人聲分離后的音頻會議內容中的每個參會人員的聲音數(shù)據(jù)分別進行關聯(lián)所述個人特征的標記;根據(jù)所述經(jīng)分別標記后的每個參會人員的聲音數(shù)據(jù),形成所述音頻會議內容的文本會議記錄。
其中,所述構建關聯(lián)所述個人特征和對應所述個人特征的聲紋特征的人聲模型,包括:根據(jù)所述個人特征,篩選出對應所述個人特征的聲紋特征的聲紋特征集合,根據(jù)所述聲紋特征集合,構建關聯(lián)所述個人特征和對應所述個人特征的聲紋特征的人聲模型。
其中,所述對音頻會議內容進行對應所述人聲模型的人聲分離,包括:從音頻會議內容中獲取人聲聲紋特征,對比所述人聲模型中的聲紋特征和所述人聲聲紋特征,采用將所述人聲聲紋特征中與所述人聲模型中的聲紋特征相同的聲紋特征對應的音頻會議內容進行分離的方式,對所述音頻會議內容進行對應所述人聲模型的人聲分離。
其中,所述按時間戳方式,將所述人聲分離后的音頻會議內容中的每個參會人員的聲音數(shù)據(jù)分別進行關聯(lián)所述個人特征的標記,包括:根據(jù)所述人聲分離后的音頻會議內容中的每個參會人員的聲音數(shù)據(jù)對應的時間戳,生成關聯(lián)所述時間戳的標簽,根據(jù)所述生成的標簽,將所述人聲分離后的音頻會議內容中的每個參會人員的聲音數(shù)據(jù)分別進行關聯(lián)所述個人特征的標記。
其中,在所述根據(jù)所述經(jīng)分別標記后的每個參會人員的聲音數(shù)據(jù),形成所述音頻會議內容的文本會議記錄之后,還包括:根據(jù)所述形成的文本會議記錄,配置所述音頻會議內容關聯(lián)的參會人員的文本會議記錄。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經(jīng)廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010364792.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





