[發明專利]基于語音識別結果進行意圖分類的方法和裝置有效
| 申請號: | 201911421937.5 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111177324B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 金春祥;劉佳;崔恒斌 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/35;G10L15/22;G06F18/241;G06F18/2415 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 孫欣欣;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語音 識別 結果 進行 意圖 分類 方法 裝置 | ||
本說明書實施例提供一種基于語音識別結果進行意圖分類的方法和裝置,方法包括:獲取針對目標語音進行自動語音識別后得到的目標文本;從預先建立的漢字到拼音的映射表中,查找所述目標文本包含的各漢字分別對應的拼音;基于所述各漢字分別對應的拼音,形成目標拼音序列;將所述目標文本和所述目標拼音序列作為目標文本語音對,將所述目標文本語音對輸入預先訓練的文本編碼模型,通過所述文本編碼模型輸出所述目標文本語音對對應的目標編碼向量;根據所述目標編碼向量,對所述目標語音進行意圖分類。能夠降低意圖分類的錯誤率。
技術領域
本說明書一個或多個實施例涉及計算機領域,尤其涉及基于語音識別結果進行意圖分類的方法和裝置。
背景技術
在語音交互場景中,常常會采用自動語音識別(automated?speech?recognition,ASR)將語音轉為文本。而自動語音識別經常會出現識別錯誤的情況,并且識別錯誤出現幾率是比較高的,目前通用的語音識別的字級別準確率在85%左右。
現有技術中,基于語音識別結果進行意圖分類時,由于語音識別結果存在錯誤的幾率較高,相應地,基于語音識別結果進行意圖分類的錯誤率也較高。
因此,希望能有改進的方案,在基于語音識別結果進行意圖分類時,能夠降低意圖分類的錯誤率。
發明內容
本說明書一個或多個實施例描述了一種基于語音識別結果進行意圖分類的方法和裝置,能夠降低意圖分類的錯誤率。
第一方面,提供了一種基于語音識別結果進行意圖分類的方法,方法包括:
獲取針對目標語音進行自動語音識別后得到的目標文本;
從預先建立的漢字到拼音的映射表中,查找所述目標文本包含的各漢字分別對應的拼音;
基于所述各漢字分別對應的拼音,形成目標拼音序列;
將所述目標文本和所述目標拼音序列作為目標文本語音對,將所述目標文本語音對輸入預先訓練的文本編碼模型,通過所述文本編碼模型輸出所述目標文本語音對對應的目標編碼向量;
根據所述目標編碼向量,對所述目標語音進行意圖分類。
在一種可能的實施方式中,所述基于所述各漢字分別對應的拼音,形成目標拼音序列,包括:
基于所述各漢字分別對應的拼音,按照英文單詞的切分方式將拼音切分為若干組成單元,以得到各組成單元構成的所述目標拼音序列。
在一種可能的實施方式中,所述基于所述各漢字分別對應的拼音,形成目標拼音序列,包括:
基于所述各漢字分別對應的拼音,將拼音作為一個組成單元,以得到各組成單元構成的所述目標拼音序列。
在一種可能的實施方式中,所述文本編碼模型通過如下方式預先訓練:
獲取訓練文本和訓練拼音序列組成的訓練文本語音對;其中,所述訓練文本的組成單元為漢字;所述訓練拼音序列的組成單元基于所述訓練文本中漢字對應的拼音而形成;
將所述訓練文本語音對中的若干位置的組成單元分別用預設字符替換,得到第一文本輸入;
將所述第一文本輸入作為所述文本編碼模型的輸入,通過所述文本編碼模型對應于所述若干位置中各個位置的輸出,預測該位置預設字符替換前的組成單元,基于預測的正確性對所述文本編碼模型進行訓練。
進一步地,所述將所述訓練文本語音對中的若干位置的組成單元分別用預設字符替換,得到第一文本輸入,包括:
在所述訓練文本語音對中的訓練文本中,選取若干位置的第一預設比例的漢字分別用預設字符替換;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911421937.5/2.html,轉載請聲明來源鉆瓜專利網。





