[發明專利]一種聲紋檢索方法及前端后端服務器、后端服務器有效
| 申請號: | 202011228722.4 | 申請日: | 2020-11-06 |
| 公開(公告)號: | CN112581967B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 葉林勇;肖龍源;李稀敏 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/00 |
| 代理公司: | 廈門仕誠聯合知識產權代理事務所(普通合伙) 35227 | 代理人: | 樂珠秀 |
| 地址: | 361009 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聲紋 檢索 方法 前端 后端 服務器 | ||
1.一種聲紋檢索方法,其特征在于,包括以下步驟:
對采集的語音數據進行說話人ID的標注,并在后端服務器對所述語音數據提取聲紋特征;
根據所述說話人ID和所述聲紋特征進行構建聲紋數據庫;
將所述聲紋數據庫導出并注冊到前端設備上;
將前端設備提取到的當前語音數據在前端設備上做聲紋檢索,得到當前的說話人ID;
其中,將所述聲紋數據庫注冊到前端設備上,是使用聲紋數據庫導出工具將每個說話人ID及其對應的聲紋特征導出并注冊到前端設備上;所述聲紋特征的數據保存格式為:模型名稱|模型版本|[X1,X2,X3...Xn],其中X1到Xn為每個說話人提取到的N維聲紋特征向量;將所述聲紋特征導入前端設備時,進一步對模型名稱和模型版本與所述前端設備的本地模型名稱和本地模型版本進行匹配;若模型名稱和/或模型版本不一致,則該條說話人聲紋特征導入失敗。
2.根據權利要求1所述的一種聲紋檢索方法,其特征在于:所述聲紋數據庫的構建,是通過將M個說話人ID對應的聲紋特征輸入預訓練好的模型中,輸出每個說話人ID對應的N維聲紋特征向量;將所述M個說話人ID的N維特征向量保存到數據庫中,建立容量為M*N的聲紋數據庫;所述聲紋數據庫中,每個說話人的聲紋特征向量采用說話人ID做映射。
3.根據權利要求1所述的一種聲紋檢索方法,其特征在于:M個說話人的聲紋特征分別導出至M個ark文件。
4.根據權利要求3所述的一種聲紋檢索方法,其特征在于:所述ark文件采用說話人ID進行命名,將所述聲紋特征導入前端設備時,進一步對所述ark文件的說話人ID與本地說話人ID進行匹配,若匹配到該說話人ID在本地的聲紋數據庫已存在,則該條聲紋特征導入失敗。
5.根據權利要求1所述的一種聲紋檢索方法,其特征在于:所述當前語音數據的提取,是通過語音提取工具進行提取即時通訊軟件的語音文件,并通過語音轉換工具將所述語音文件進行格式轉換并保存在前端設備的緩存中。
6.根據權利要求5所述的一種聲紋檢索方法,其特征在于:所述語音提取工具提取的語音文件采用SILK壓縮格式,所述語音轉換工具將所述語音文件從SILK壓縮格式轉換為WAV格式。
7.根據權利要求5所述的一種聲紋檢索方法,其特征在于:在前端設備上做聲紋檢索,是通過對前端設備的緩存中的語音文件提取聲紋特征,將提取到的聲紋特征與本地注冊的聲紋數據庫中的聲紋特征進行特征比對,并根據相似度和/或置信度判斷當前語音數據與所述聲紋數據庫中的聲紋特征對應的說話人ID為同一說話人。
8.一種前端設備,其特征在于,包括:
語音采集模塊,用于采集當前語音數據;
數據存儲模塊,用于將預先構建的聲紋數據庫導入并注冊到前端設備上;其中,所述聲紋數據庫是通過對預先采集的語音數據進行說話人ID的標注,并在后端服務器對所述語音數據提取聲紋特征,根據所述說話人ID和所述聲紋特征進行構建聲紋數據庫;
聲紋檢索模塊,用于對所述當前語音數據進行提取當前聲紋特征,根據當前聲紋特征對所述聲紋數據庫做聲紋檢索,得到當前的說話人ID;
其中,將所述聲紋數據庫注冊到前端設備上,是使用聲紋數據庫導出工具將每個說話人ID及其對應的聲紋特征導出并注冊到前端設備上;所述聲紋特征的數據保存格式為:模型名稱|模型版本|[X1,X2,X3...Xn],其中X1到Xn為每個說話人提取到的N維聲紋特征向量;將所述聲紋特征導入前端設備時,進一步對模型名稱和模型版本與所述前端設備的本地模型名稱和本地模型版本進行匹配;若模型名稱和/或模型版本不一致,則該條說話人聲紋特征導入失敗。
9.一種后端服務器,其特征在于,包括:
數據導入模塊,用于導入預先采集的語音數據;
數據處理模塊,用于對所述語音數據進行說話人ID的標注,并對所述語音數據提取聲紋特征;
聲紋數據庫構建模塊,用于根據所述說話人ID和所述聲紋特征進行構建聲紋數據庫;
數據導出模塊,用于將所述聲紋數據庫導出并注冊到前端設備上;
其中,將所述聲紋數據庫注冊到前端設備上,是使用聲紋數據庫導出工具將每個說話人ID及其對應的聲紋特征導出并注冊到前端設備上;所述聲紋特征的數據保存格式為:模型名稱|模型版本|[X1,X2,X3...Xn],其中X1到Xn為每個說話人提取到的N維聲紋特征向量;將所述聲紋特征導入前端設備時,進一步對模型名稱和模型版本與所述前端設備的本地模型名稱和本地模型版本進行匹配;若模型名稱和/或模型版本不一致,則該條說話人聲紋特征導入失敗。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011228722.4/1.html,轉載請聲明來源鉆瓜專利網。





