[發明專利]利用深度信息識別語音的方法、系統及計算機可讀介質在審
| 申請號: | 201980052681.7 | 申請日: | 2019-08-27 |
| 公開(公告)號: | CN112639964A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 林袁;何朝文 | 申請(專利權)人: | OPPO廣東移動通信有限公司 |
| 主分類號: | G10L15/25 | 分類號: | G10L15/25 |
| 代理公司: | 深圳市智圈知識產權代理事務所(普通合伙) 44351 | 代理人: | 周獻 |
| 地址: | 523860 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 深度 信息 識別 語音 方法 系統 計算機 可讀 介質 | ||
在一種實施方式中,方法包括:接收多個第一圖像,所述多個第一圖像包括說出話語的說話人的至少一個口相關部,每個第一圖像具有深度信息;利用所述多個第一圖像提取多個視位特征,其中,所述多個視位特征中的一個視位特征是利用所述多個第一圖像中的一個第一圖像的深度信息中所述說話者的舌頭的深度信息獲得的;利用所述多個視位特征確定與所述說出的話語相對應的詞語序列,所述詞語序列包括至少一個詞語;以及通過人機界面(HMI)輸出模型利用所述詞語序列來輸出響應。
相關申請的交叉引用
本申請要求于2018年9月4日遞交的名稱為“METHOD,SYSTEM,AND COMPUTER-READABLE MEDIUM FOR RECOGNIZING SPEECHUSING DEPTH INFORMATION”的美國申請NO.62/726,595的優先權。
本公開內容的背景
1.技術領域
本公開內容涉及語音識別領域,尤其涉及利用深度信息識別言語的方法、系統及計算機可讀介質。
2.背景技術
自動語音識別可以用于識別人類的話語,生成可以用于使智能設備和機器人為各種應用程序執行動作的輸出。唇讀是一種利用視覺信息來識別人類的話語的語音識別。但唇讀難以準確地生成輸出。
發明內容
本公開內容的目的是提出用于利用深度信息識別語音的方法、系統及計算機可讀介質。
在本公開內容的第一方面中,一種方法包括:
至少一個處理器接收多個第一圖像,所述多個第一圖像包括說出話語的說話者的至少一個口相關部,每個第一圖像具有深度信息;
所述至少一個處理器利用所述多個第一圖像提取多個視位特征,其中,所述多個視位特征中的一個視位特征是利用所述多個第一圖像中的一個第一圖像的深度信息中所述說話者的舌頭的深度信息獲得的;
所述至少一個處理器利用所述多個視位特征確定與所述說出的話語相對應的詞語序列,所述詞語序列包括至少一個詞語;以及
一個人機界面(HMI)輸出模型利用所述詞語序列來輸出響應。根據結合本公開內容第一方面的一個實施方式,該方法還包括:
當所述說話者正在說出所述話語時,一個相機生成照射所述說話者的舌頭的紅外光;以及
所述相述攝取所述多個第一圖像。
根據結合本公開內容第一方面的一個實施方式,所述至少一個處理器接收所述多個第一圖像的步驟包括:所述至少一個處理器接收多個圖像集,其中,每個圖像集包括所述多個第一圖像的一個對應第二圖像和一個對應第三圖像,所述對應第三圖像具有增強所述對應第二圖像的深度信息的顏色信息;所述至少一個處理器利用所述多個第一圖像提取所述多個視位特征的步驟包括:所述至少一個處理器利用所述多個圖像集提取所述多個視位特征,其中,所述多個圖像包括第一圖像集,所述多個視位特征中的所述一個視位特征是利用所述第一圖像集的深度信息和顏色信息中對應于所述舌頭的深度信息和顏色信息獲得的。
根據結合本公開內容第一方面的一個實施方式,所述至少一個處理器利用所述多個第一圖像集提取所述多個視位特征的步驟包括:
所述至少一個處理器生成對應于所述多個第一圖像的多個口相關部嵌入(embedding),其中,每個口相關部嵌入包括利用所述舌頭的深度信息生成的第一元素;以及
所述至少一個處理器追蹤所述口相關部的形變,從而利用遞歸神經網絡(RNN)根據所述多個口相關部嵌入所反映的所述話語的語境,生成所述多個視位特征。
根據結合本公開內容第一方面的一個實施方式,所述RNN包括雙向長短期記憶(LSTM)網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于OPPO廣東移動通信有限公司,未經OPPO廣東移動通信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980052681.7/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





