[發明專利]基于人工智能的語音處理方法及裝置有效

申請號：	201611246698.0	申請日：	2016-12-29
公開（公告）號：	CN106710606B	公開（公告）日：	2019-11-08
發明（設計）人：	王知踐;錢勝	申請（專利權）人：	百度在線網絡技術（北京）有限公司
主分類號：	G10L25/78	分類號：	G10L25/78;G10L19/00
代理公司：	北京清亦華知識產權代理事務所(普通合伙) 11201	代理人：	張潤
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	解碼語音包結果識別人工智能聲學模型語音處理靜音幀跳過冗余
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提出一種基于人工智能的語音處理方法及裝置，其中，方法包括：利用聲學模型對待解碼的語音包中的當前幀進行打分；根據打分結果識別當前幀是否為準靜音幀；如果識別出當前幀為準靜音幀，在解碼時跳過當前幀，不對當前幀進行解碼。本發明中，在對待解碼的語音包的當前幀進行解碼之前，根據聲學模型的打分結果識別出當前幀是否需要解碼，當不需要解碼時，在解碼時跳過當前幀，從而可以避免冗余解碼，提升解碼的速度，加快對待解碼的語音包的識別。

技術領域

本發明涉及信息處理技術領域，尤其涉及一種基于人工智能的語音處理方法及裝置。

背景技術

人工智能(Artificial Intelligence)，英文縮寫為AI。它是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支，它企圖了解智能的實質，并生產出一種新的能以人類智能相似的方式做出反應的智能機器，該領域的研究包括機器人、語音識別、圖像識別、自然語言處理和專家系統等。其中，人工智能最重要的方面就是語音識別技術。

目前多采用基于神經網絡的時序類分類(Connectionist temporalclassification，簡稱CTC)建模進行語音識別，識別過程中對語音包進行解碼時，現有的CTC建模語音識別系統對該語音包中所有的音頻幀進行解碼。然后實際應用中，一個語音包中有些音頻幀可能并不攜帶信息，這些不攜帶信息的音頻幀一般就是靜音幀，現有的CTC建模語音識別系統對靜音幀進行解碼實際上就是一種冗余解碼。

發明內容

本發明旨在至少在一定程度上解決相關技術中的技術問題之一。

為此，本發明的第一個目的在于提出一種基于人工智能的語音處理方法，用于解決現有基于CTC建模的語音識別系統對語音包中包括的靜音幀進行解碼存在冗余解碼的問題。

本發明的第二個目的在于提出一種基于人工智能的語音處理裝置。

本發明的第三個目的在于提出另一種基于人工智能的語音處理裝置。

本發明的第四個目的在于提出一種非臨時性計算機可讀存儲介質。

本發明的第五個目的在于提出一種計算機程序產品。

為達上述目的，本發明第一方面實施例提出了一種基于人工智能的語音處理方法，包括：

利用聲學模型對待解碼的語音包中的當前幀進行打分；

根據打分結果識別當前幀是否為準靜音幀；

如果識別出當前幀為準靜音幀，在解碼時跳過當前幀，不對當前幀進行解碼。

本發明實施例的基于人工智能的語音處理方法，通過在對待解碼的語音包的當前幀進行解碼之前，根據聲學模型的打分結果識別出當前幀是否需要解碼，當不需要解碼時，在解碼時跳過當前幀，從而可以避免冗余解碼，提升解碼的速度，加快對待解碼的語音包的識別。