[發明專利]語音識別方法及裝置、計算機可存儲介質有效
| 申請號: | 201910904271.2 | 申請日: | 2019-09-24 |
| 公開(公告)號: | CN110459205B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 付立 | 申請(專利權)人: | 京東科技控股股份有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L15/22;G10L15/26;G10L25/18;G10L25/24;G10L25/30 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 王莉莉 |
| 地址: | 100176 北京市大興區北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 計算機 存儲 介質 | ||
本公開涉及語音識別方法及裝置、計算機可存儲介質。語音識別方法包括:獲取與不同采樣率的待訓練音頻對應的第一線性頻譜;確定不同采樣率中的最大采樣率和其他采樣率;將與其他采樣率和最大采樣率分別對應的第一線性頻譜的最大頻域序號確定為第一頻域序號和第二頻域序號;在與其他采樣率對應的第一線性頻譜中,將與大于第一頻域序號、且小于或等于第二頻域序號的每個頻域序號對應的幅度值設置為零,得到與其他采樣率對應的第二線性頻譜;分別根據與最大采樣率對應的第一線性頻譜的第一梅爾譜特征和與其他采樣率對應的第二線性頻譜的第二梅爾譜特征,確定第一語音特征和第二語音特征;利用第一語音特征和第二語音特征,訓練機器學習模型。
技術領域
本公開涉及機器學習領域,特別涉及語音識別方法及裝置、計算機可存儲介質。
背景技術
近年來,隨著人工智能技術的高速發展,智能客服系統已經在電商、物流、金融等多項服務領域獲得了廣泛應用。ASR(Automatic Speech Recognition,自動語音識別)是智能客服系統的核心技術之一,該技術旨在將用戶的語音信號轉為文本信息,以便用于后續的自然語言處理。因此,準確、實時的ASR是保障智能客服系統準確進行客戶意圖理解和服務應答的重要前提。然而,在實際的智能客服場景下,待識別的音頻中可能存在口音、方言、背景噪聲干擾等多種復雜因素,給高準確率的語音識別帶來巨大挑戰。
針對智能客服場景的語音識別問題,傳統方法通常將語音識別的機器學習任務分解為多個串行的子模型,也即前一個模型的輸出是后一個模型的輸入,這些串行的子模型包括聲學模型、發音詞典模型、語言模型。通過分別對每個模型進行設計、數據標注、訓練,獲得最終的機器學習模型結果。
然而,該方法的主要存在以下兩點問題。首先,每一個子模型的訓練均需要大量的標注數據,子模型越多,標注數據的時間和人力成本越高。其次,采用多個子模型的串行模型,非常容易導致模型誤差的累積傳遞,例如每個子模型的準確率是90%,三個子模型串行使用的準確率將是0.9×3=72.9%,嚴重制約了最終的機器學習模型的應用效果。
隨著DL(Deep Learning,深度學習)技術的高速發展,基于端到端的DNN(DeepNeural Network,深度神經網絡)的機器學習模型相比于傳統的串行模型的性能獲得了顯著的提升?;贒NN的語音識別僅采用一個機器學習模型,輸入端為語音音頻數據,輸出端為文字識別結果。該類模型有效解決了的傳統機器學習模型中的子模型設計成本高、多模型數據標注成本高和模型誤差串行累積導致的識別準確率低等問題。
目前,基于DNN的機器學習模型的框架主要包括CTC(Connectionist TemporalClassification,連接時間分類)框架,LAS(Listen Attention Spell,聽力、注意力機制、拼寫)框架和RNNT(Recurrent Neural Network Transducer,循環神經網絡轉寫)框架,后續的基于DNN的機器學習模型的結構,均是在這三種框架的基礎之上演變獲得。
由于利用機器學習模型進行語音識別的網絡結構通常較大,因此大規模的音頻數據及標注數據是訓練一個好的語音識別模型的重要前提。與獲取圖像、文本等數據相比,由于音頻數據涉及隱私、版權等信息,通常難以輕易獲得大規模的音頻數據。另外,需要人工聽取至少一遍音頻數據才能完成音頻數據的標注,標注成本高。
而訓練數據是深度學習領域中影響機器學習模型的準確率最為重要的因素之一。能否獲得大規模的音頻數據對機器學習的語音識別的最終性能起著決定性的作用。但是,由于音頻的語音信號的采集設備不同,采樣率通常也不一致,而不同采樣率的音頻的語音信號難以同時用于機器學習模型的訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東科技控股股份有限公司,未經京東科技控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910904271.2/2.html,轉載請聲明來源鉆瓜專利網。





