[發明專利]一種基于關鍵詞的語音識別方法有效
| 申請號: | 201811636670.7 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109545190B | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 許超逸;劉曉珍;張惠亮;吳鋒海 | 申請(專利權)人: | 聯動優勢科技有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/06;G10L15/16;G10L25/24;G10L25/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;李相雨 |
| 地址: | 100082 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關鍵詞 語音 識別 方法 | ||
本發明實施例提供一種基于關鍵詞的語音識別方法。所述方法包括獲取語音信號,并將所述語音信號按照時間順序切分為至少一個語音切片;采用預先訓練的LAS模型得到與每個語音切片對應的拼音切片;將所有拼音切片拼接為與所述語音信號對應的拼音序列;根據預存的關鍵詞拼音列表,得到所述拼音序列中包含的關鍵詞拼音,本發明實施例通過對所述語音信號進行切片,并采用LAS模型根據語音切片得到拼音切片,再從拼接得到拼音序列中匹配到對應的關鍵詞拼音,從而能夠根據關鍵詞簡單、快速地實現對所述語音信號中關鍵信息的識別。
技術領域
本發明實施例涉及語音分析技術領域,尤其涉及一種基于關鍵詞的語音識別方法。
背景技術
在互聯網金融的大環境中,金融企業以金融市場為導向,通過營銷方式向客戶提供進行金融產品和服務,在滿足客戶需求的同時實現企業利益,就是所謂的金融營銷。對營銷質量的衡量標準由于場景的不同而有所差異。在一些特定場景中,客服人員通過語音形式為客戶提供服務,客服的服務在某種程度上決定了營銷的成功與否。語音在反應客服人員的工作態度的同時,或許也可以挖掘出更多的價值商業價值。在此背景下語音質檢技術應運而生。語音質檢可以分為很多小類,如關鍵詞搜索、音頻比擬、感情辨認等。在特定的營銷場景對話過程中對一些關鍵信息的搜索,很大程度等同于關鍵詞搜索,隸屬于語音質檢范疇。當前的語音質檢主要通過人工抽檢、傳統的智能質檢等,存在一些質檢效率低、覆蓋不全面、人力資源消耗大、效率低等不足。,隨著深度學習的發展,語音識別技術取得了顯著的突破,甚至達到了可以比擬人類的水平,因此采用最新的神經網絡模型解決語音質檢問題也成為了現今最為有效的技術解決方案。
人工質檢主要通過投入較多的人力資源,抽檢語音信號,針對質檢的關注點簡單或者來回重復的聽取。聲學模型,如高斯混合模型-隱馬爾科夫模型(Gaussian mixturemodel-Hidden Markov Mode,GMM-HMM)的聲學模型,其中GMM用于對語音聲學特征的分布進行建模,HMM則用于對語音信號的時序性進行建模。GMM-HMM就是把特征用混合高斯模型去模擬特征,然后把均值和方差輸入到HMM的模型里。系統輸入為提取的聲學特征參數,比如梅爾頻率倒譜系數(Mel Frequency Cepstral Coefficents,MFCC)、濾波組件(Filterbank,Fbank)等,輸出為條件概率P(O|S),s表示狀態,O表示輸出的觀測序列,就是音素序列。對于,P(Oi|Si),則相當于該狀態對應的輸出的觀測值音素的概率,(因為音素的個數是一定的,所以這就相當于一個分類問題)。在運行完HMM后,語音就自動切分了,每一幀對應的狀態就知道了。根據狀態的出現概率和轉移概率就可以算出每一個可能路徑的最終的輸出概率,選擇概率最大的路徑就是要識別的結果。對于轉移概率的計算、高斯混合模型的參數通過Baum-Welch算法估計得到;使用Viterbi算法獲取最優路徑。采用深度神經網絡(Deep Neural Network,DNN)進行優化,如DNN-HMM。在該混合系統中,訓練深度神經網絡來獲取HMM狀態的后驗概率估計。DNN在獲取語音特征的時候可以跳過離散余弦變換(Discrete Cosine Transform,DCT)。DNN的輸入是本幀與左右各幾幀的拼接。模型的第一層是高斯限制玻爾茲曼機(Gaussian Restricted Boltzmann machine,GRBM),后面每層是限制玻爾茲曼機(Restrict Boltzmann Machine,RBM),這樣一層一層的訓練。然后根據GMM-HMM的對齊,使用后向傳播算法對每一幀來做微調fine-tuning,根據先驗概率重新估計轉移概率,然后再利用轉移概率繼續訓練DNN-HMM。隨著基于神經網絡的時序類分類(Connectionist Temporal Classification,CTC)、序列到序列的網絡(Sequence tosequence,seq2seq)技術的成熟,直接端到端end-to-end的語音識別模型成為大家關注的焦點,與傳統的聲學模型訓練相比,采用CTC損失函數CTC loss或者seq2seq的聲學模型訓練,不需要預先對數據進行對齊操作,只需要一個輸入序列和一個輸出序列即可以訓練。這樣就不需要對數據對齊和一一標注,并且直接輸出序列預測的概率,不需要外部的后處理。如今基于深度學習的技術方案已經取得了遠超傳統模型的識別效果,因此成為了工業應用的最佳選擇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于聯動優勢科技有限公司,未經聯動優勢科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811636670.7/2.html,轉載請聲明來源鉆瓜專利網。





