[發明專利]語音識別方法、裝置、設備和存儲介質在審
| 申請號: | 201811534858.0 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109545203A | 公開(公告)日: | 2019-03-29 |
| 發明(設計)人: | 俞詩洪 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G10L15/18 | 分類號: | G10L15/18;G10L15/22;G10L15/26 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 語音識別 音詞 會話 存儲介質 語音信息 澄清 用戶輸入語音 計算機設備 上下文確定 一對一會話 交互模式 交互識別 用戶確定 用戶確認 語音模型 同音詞 檢測 準確率 對話 回復 場景 | ||
本發明實施例涉及一種語音識別方法、裝置、計算機設備和存儲介質,所述方法包括:在檢測到用戶輸入語音后,建立與該用戶的對話,在對語音信息進行語音識別的過程中若檢測到對應多個語義的同音詞,則發起針對該多音詞的澄清對話,以讓用戶確定多音詞的正確語義,最后根據用戶的回復以及會話中的上下文確定多音詞的正確語義。相比于現有的單交互識別的模式,本發明實施例采用人機雙交互模式,通過建立與用戶的一對一會話,能夠為語音識別提供場景支持,使得語音模型能夠通過會話中的上下文更好的理解語音信息所表達的語義。此外,本發明實施例提供的方法對于多音詞還能夠發起澄清會話,以讓用戶確認多音詞的語義,從而能夠提高語音識別的準確率。
技術領域
本發明實施例涉及數據處理技術領域,尤其涉及的語音識別方法、裝置、計算機設備和存儲介質。
背景技術
語音識別目前是一個較為熱門的技術領域。語音識別技術可以應用到諸多產品中,例如手機、可穿戴設備、智能家居等等。用戶通過語音即可控制設備進行一定的操作。目前平臺上的語音識別技術只是一種傳統的單交互識別。也即機器只回答本次的問題,只局限在單輪對話里。
例如:
用戶:“中山”有什么好吃的?
機器:好,我找到了以下餐館:(會默認給用戶推薦附近餐館)
用戶:我不想吃飯。
機器:好的。
然而,在這樣的語音識別模式中,機器只回答本次的問題,只局限在單輪對話里,缺乏語言場景支持,且這種單交互式的語音識別方式對于同音詞、多義詞的識別率的正確率較低。
發明內容
基于此,本發明實施例提供了一種語音識別方法、裝置、設備和存儲介質,用于提高語音識別過程中同音詞的識別正確率。
第一方面,本發明實施例可以包括:
在檢測到用戶輸入語音信息后,根據第一信息通過會話管理器生成與所述用戶的會話;其中所述第一信息為檢測到的用于表征所述用戶的特征信息,或預設的時間段;
在所述會話中,在對用戶輸入的語音信息進行語音識別的過程中,若確定所述語音信息中包含對應多個語義結果的同音詞,則發起針對所述同音詞的澄清對話,所述澄清對話用于向用戶確認所述同音詞的對應的正確語義;
在檢測到用戶對于所述澄清對話的回復后,根據所述回復以及所述會話中的上下文確定所述同音詞的正確語義。
可選地,所述確定語音信息包含對應多個語義結果的同音詞,包括:
對語音信息進行識別,得到對應的多個音節;
對得到的多個音節進行分詞操作,得到分詞結果;
對分詞結果進行語義理解,若第一分詞對應的語義為多個,則確定第一分詞為同音詞。
可選地,所述澄清對話包括所述多個語義以及各個語義對應的標識,所述標識的常規語義以及常規語義對應的權重預先存儲在進行語音識別的模型中;
所述用戶對于所述澄清對話的回復為正確語義對應的標識;
所述根據回復確定所述同音詞的正確語義,包括:
將用戶回復的標識所對應的正確語義存儲在模型中,并設置所述正確語義對應的權重大于所述標識的常規語義對應的權重;
將所述標識對應的所有語義按權重由大到小進行排序,將排序最靠前的語義確定為所述同音詞的正確語義。
可選地,所述方法還包括:
在檢測滿足會話終止條件時,結束所述會話;
將所述標識所對應的正確語義從所述模型中刪除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811534858.0/2.html,轉載請聲明來源鉆瓜專利網。





