[發明專利]說話者識別裝置、說話者識別方法及記錄介質在審
| 申請號: | 201910930409.6 | 申請日: | 2019-09-29 |
| 公開(公告)號: | CN111009248A | 公開(公告)日: | 2020-04-14 |
| 發明(設計)人: | 板倉光佑 | 申請(專利權)人: | 松下電器(美國)知識產權公司 |
| 主分類號: | G10L17/06 | 分類號: | G10L17/06;G10L17/18 |
| 代理公司: | 永新專利商標代理有限公司 72002 | 代理人: | 蔣巍 |
| 地址: | 美國加*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 說話 識別 裝置 方法 記錄 介質 | ||
1.一種說話者識別裝置,具備:
特征量算出部,其針對所取得的發聲的語音算出兩個以上的音響特征量;
相似度計算部,其計算針對作為識別對象的說話者的一個以上的說話者性特征量與由所述特征量算出部算出的所述兩個以上的音響特征量的每一個之間的相似度;
合成部,其合成由所述相似度計算部計算出的兩個以上的相似度;以及
判定部,其基于由所述合成部得到的合成值,判定所述發聲的說話者是否為所述作為識別對象的說話者,
所述兩個以上的音響特征量中的至少兩個音響特征量的性質及所述兩個以上的相似度中的至少兩個相似度的性質中的至少一方不同。
2.根據權利要求1所述的說話者識別裝置,其中,
所述兩個以上的相似度中的至少兩個相似度是性質不同的第一相似度和第二相似度,
所述第一相似度是使用作為所述一個以上的說話者性特征量中的第一說話者性特征量的學習完畢計算用模型,根據由所述特征量算出部算出的第一音響特征量,通過概率線性判別分析PLDA來計算的,該學習完畢計算用模型是針對包含所述說話者的說話方式的所述說話者的特征量進行了學習的學習完畢計算用模型,
所述第二相似度是作為所述一個以上的說話者性特征量中的第二說話者性特征量與由所述特征量算出部算出的第二音響特征量的余弦距離來計算的。
3.根據權利要求1所述的說話者識別裝置,其中,
所述兩個以上的音響特征量中的至少兩個音響特征量是性質不同的第一音響特征量和第二音響特征量,
所述第一音響特征量是通過由所述特征量算出部使用i-Vector將所述發聲的語音物理量進行線性變換而算出的,
所述第二音響特征量是通過由所述特征量算出部使用深度神經網絡DNN將所述語音物理量進行非線性變換而算出的。
4.根據權利要求1所述的說話者識別裝置,其中,
所述兩個以上的音響特征量中的至少兩個音響特征量是性質不同的第一音響特征量和第二音響特征量,
所述第一音響特征量是通過由所述特征量算出部使用深度神經網絡DNN的第一模型進行非線性變換而算出的,
所述第二音響特征量是通過由所述特征量算出部使用作為DNN的第二模型的、性質與所述第一模型不同的第二模型進行非線性變換而算出的,
所述第一模型是使用第一學習數據進行了學習的模型,所述第一學習數據包括閾值以上的雜音環境下的所述作為識別對象的說話者的語音,
所述第二模型是使用第二學習數據進行了學習的模型,所述第二學習數據包括低于所述閾值的雜音環境下的所述作為識別對象的說話者的語音。
5.根據權利要求2所述的說話者識別裝置,其中,
所述第一音響特征量和所述第二音響特征量相同。
6.根據權利要求1至5中任一項所述的說話者識別裝置,其中,
所述合成部通過將表示由所述相似度計算部計算出的相似度的每一個的得分合計,來合成所述兩個以上的相似度。
7.根據權利要求1至5中任一項所述的說話者識別裝置,其中,
所述合成部通過以由所述相似度計算部計算出的相似度各自的平均值為0且方差為1的方式進行標準化并進行合計,來合成所述兩個以上的相似度。
8.根據權利要求1至5中任一項所述的說話者識別裝置,其中,
所述合成部通過以由所述相似度計算部計算出的相似度各自的平均值為0且方差為1的方式進行標準化并計算加權和,來合成所述兩個以上的相似度。
9.根據權利要求8所述的說話者識別裝置,其中,
所述合成部通過所取得的所述發聲的時間長度越長則乘以越大的系數來計算所述加權和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于松下電器(美國)知識產權公司,未經松下電器(美國)知識產權公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910930409.6/1.html,轉載請聲明來源鉆瓜專利網。





