[發明專利]一種人工智能學習的模糊語音語義識別方法及系統有效
| 申請號: | 201910713034.8 | 申請日: | 2019-08-02 |
| 公開(公告)號: | CN110600012B | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 孫斌;李東曉 | 申請(專利權)人: | 光控特斯聯(上海)信息科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02;G06N3/08 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 李小朋;谷波 |
| 地址: | 200232 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 人工智能 學習 模糊 語音 語義 識別 方法 系統 | ||
1.一種人工智能學習的模糊語音語義識別方法,包括以下步驟:
步驟1,采集用戶輸入的模糊語音信號,并且提取模糊語音信號的高維度特征量;在本步驟中,提取模糊語音信號的高維度特征量,高維度特征量具體來說是每個模糊語音信號幀的頻譜包絡特征,頻譜包絡特征的提取過程是對每個模糊語音信號幀進行短時FTT轉換,獲得模糊語音信號幀的頻譜,對模糊語音信號的頻譜通過Mel濾波器得到Mel頻譜,然后在Mel頻譜基礎上進行取對數和DCT離散余弦變換,獲得MFCC系數,截取12-16個MFCC系數,作為模糊語音信號幀的頻譜包絡特征量Xt;
步驟2,根據模糊語音信號的頻譜包絡特征量,確定與模糊語音信號特征匹配的樣本選集;
步驟3,構建用于將模糊語音重建為標準語音的GAN架構的重建模型,利用所述樣本選集,訓練所述重建模型;
步驟4,構建將模糊語音基頻轉化為標準語音基頻的轉換器;
步驟5,將用戶輸入的模糊語音信號的頻譜包絡特征量輸入訓練完畢的重建模型,獲得重建模型的生成器輸出的重建標準語音的頻譜包絡特征量,并且將模糊語音基頻輸入轉換器,轉化重建標準語音的基頻;
步驟6,根據重建標準語音的頻譜包絡特征量以及基頻,合成重建標準語音;
步驟7,利用重建標準語音進行語義信息的識別;
步驟2中建立若干個樣本選集,每個語音樣本包括模糊語音樣本和標準語音樣本,且模糊語音樣本的特征量相似度在預設的相似度范圍之內;基于步驟1提取的模糊語音信號的頻譜包絡特征量,與每個樣本選集的選集代表性特征量進行匹配,從而選定與模糊語音信號的頻譜包絡特征量匹配的樣本選集;
步驟2中,所述樣本選集具有n段語音樣本,每個語音樣本對應的模糊語音樣本的頻譜包絡特征量為X1s,X2s…Xns,每個頻譜包絡特征量為d維度特征向量,組成樣本選集的特征量矩陣XS={X1s,X2s…Xns};對于d維中的第r維度,計算其在整個特征量矩陣XS的均值,表示為并且選取特征量矩陣XS中nk個特征量組成的子矩陣,記為子矩陣XkS,表示為從而特征量矩陣XS中每nk個特征向量組成一個子矩陣,共計c個子矩陣,即k=1,2...c;子矩陣XkS在d維中的第r維度的均值表示為則計算c個子矩陣的類間距離:
并且計算c個子矩陣每個子矩陣的類內距離:
其中xks,r為XkS中每個特征向量在r維度上的取值;
計算c個子矩陣每個子矩陣的類內類間比例:
σ=Db/Dw
進而確定具有最高的類內類間比例值的子矩陣為樣本選集的選集代表性特征量;將模糊語音信號的頻譜包絡特征量與每個樣本選集的選集代表性特征量進行匹配,即計算模糊語音信號的頻譜包絡特征量與作為選集代表性特征量的子矩陣內的特征量計算平均向量距離,選取平均向量距離最小的樣本選集,從而選定與模糊語音信號的頻譜包絡特征量匹配的樣本選集。
2.根據權利要求1所述的模糊語音語義識別方法,其特征在于,步驟3中GAN架構的重建模型包括:生成器G以及鑒別器D;所述生成器根據輸入該生成器的模糊語音的頻譜包絡特征量,重建標準語音的頻譜包絡特征量;所述鑒別器用于判斷生成器重建的頻譜包絡特征量的真偽。
3.根據權利要求2所述的模糊語音語義識別方法,其特征在于,步驟3中生成器G的損失函數IG(G)表示為:
其中表示生成器G的對抗損失,Lc(G)表示生成器G的循環一致損失,表示循環一致損失的正則化參數,Lid(G)表示生成器G的特征映射損失,表示特征映射損失的正則化參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于光控特斯聯(上海)信息科技有限公司,未經光控特斯聯(上海)信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910713034.8/1.html,轉載請聲明來源鉆瓜專利網。





