[發(fā)明專利]語音識別方法、裝置、設(shè)備和介質(zhì)有效
| 申請?zhí)枺?/td> | 202211064891.8 | 申請日: | 2022-09-01 |
| 公開(公告)號: | CN115132209B | 公開(公告)日: | 2022-11-08 |
| 發(fā)明(設(shè)計)人: | 邵俊堯;蔣正翔;錢勝;付曉寅;王海峰;賈磊 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/06;G06F40/216;G06K9/62;G06N7/00;G06N3/04;G06N3/08 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 呂朝蕙 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 方法 裝置 設(shè)備 介質(zhì) | ||
本公開提供了一種語音識別方法、裝置、設(shè)備和介質(zhì),涉及人工智能領(lǐng)域,具體涉及語音識別、自然語言處理和深度學習等技術(shù)領(lǐng)域。方法的具體實現(xiàn)方案為:采用聲學模型對待識別語音數(shù)據(jù)和已識別得到的第一文本片段進行處理,得到多個備選文本片段各自的聲學概率;采用第一語言子模型對第一文本片段進行處理,得到多個備選文本片段各自的初始語言概率;采用約束子模型對第一文本片段進行處理,得到多個備選文本片段各自針對第一文本片段的可擴展關(guān)系;根據(jù)可擴展關(guān)系,對備選文本片段的初始語言概率進行調(diào)整,得到多個備選文本片段各自的第一語言概率;以及根據(jù)第一語言概率和聲學概率,確定多個備選文本片段中的目標文本片段。
技術(shù)領(lǐng)域
本公開涉及人工智能領(lǐng)域,具體涉及語音識別、自然語言處理和深度學習等技術(shù)領(lǐng)域,尤其涉及一種語音識別方法、裝置、設(shè)備和介質(zhì)。
背景技術(shù)
隨著計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,深度學習技術(shù)在眾多領(lǐng)域得到了廣泛應用。例如,可以采用基于深度學習技術(shù)構(gòu)建的聲學模型來識別語音,以將采集到的語音轉(zhuǎn)化成文本。
發(fā)明內(nèi)容
本公開旨在提供一種提高語音識別精度,使得識別結(jié)果與識別任務(wù)相符的語音識別方法、裝置、設(shè)備和介質(zhì)。
根據(jù)本公開的一個方面,提供了一種語音識別方法,包括:采用聲學模型對待識別語音數(shù)據(jù)和已識別得到的第一文本片段進行處理,得到多個備選文本片段各自的聲學概率;采用語言模型中的第一語言子模型對第一文本片段進行處理,得到多個備選文本片段各自的初始語言概率;采用語言模型中的約束子模型對第一文本片段進行處理,得到多個備選文本片段各自針對第一文本片段的可擴展關(guān)系;以及根據(jù)可擴展關(guān)系,對備選文本片段的初始語言概率進行調(diào)整,得到多個備選文本片段各自的第一語言概率;以及根據(jù)第一語言概率和聲學概率,確定多個備選文本片段中的目標文本片段,以得到針對待識別語音數(shù)據(jù)的文本序列。其中,約束子模型是基于預定文本集中的文本訓練得到的。
根據(jù)本公開的另一個方面,提供了一種語音識別裝置,包括:聲學概率獲得模塊,用于采用聲學模型對待識別語音數(shù)據(jù)和已識別得到的第一文本片段進行處理,得到多個備選文本片段各自的聲學概率;初始概率獲得模塊,用于采用語言模型中的第一語言子模型對第一文本片段進行處理,得到多個備選文本片段各自的初始語言概率;擴展關(guān)系獲得模塊,用于采用語言模型中的約束子模型對第一文本片段進行處理,得到多個備選文本片段各自針對第一文本片段的可擴展關(guān)系;概率調(diào)整模塊,用于根據(jù)可擴展關(guān)系,對備選文本片段的初始語言概率進行調(diào)整,得到多個備選文本片段各自的第一語言概率;以及文本確定模塊,用于根據(jù)第一語言概率和聲學概率,確定多個備選文本片段中的目標文本片段,以得到針對待識別語音數(shù)據(jù)的文本序列,其中,約束子模型是基于預定文本集中的文本訓練得到的。
根據(jù)本公開的另一個方面,提供了一種電子設(shè)備,包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,指令被至少一個處理器執(zhí)行,以使至少一個處理器能夠執(zhí)行本公開提供的語音識別方法。
根據(jù)本公開的另一個方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,計算機指令用于使計算機執(zhí)行本公開提供的語音識別方法。
根據(jù)本公開的另一個方面,提供了一種計算機程序產(chǎn)品,包括計算機程序/指令,所述計算機程序/指令在被處理器執(zhí)行時實現(xiàn)本公開提供的語音識別方法。
應當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構(gòu)成對本公開的限定。其中:
圖1是根據(jù)本公開實施例的語音識別方法和裝置的應用場景示意圖;
圖2是根據(jù)本公開實施例的語音識別方法的流程示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211064891.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





