[發(fā)明專利]利用深度信息識別語音的方法、系統(tǒng)及計算機可讀介質(zhì)在審
| 申請?zhí)枺?/td> | 201980052681.7 | 申請日: | 2019-08-27 |
| 公開(公告)號: | CN112639964A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設(shè)計)人: | 林袁;何朝文 | 申請(專利權(quán))人: | OPPO廣東移動通信有限公司 |
| 主分類號: | G10L15/25 | 分類號: | G10L15/25 |
| 代理公司: | 深圳市智圈知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44351 | 代理人: | 周獻 |
| 地址: | 523860 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 利用 深度 信息 識別 語音 方法 系統(tǒng) 計算機 可讀 介質(zhì) | ||
1.一種方法,包括:
至少一個處理器接收多個第一圖像,所述多個第一圖像包括說出話語的說話者的至少一個口相關(guān)部,每個第一圖像具有深度信息;
所述至少一個處理器利用所述多個第一圖像提取多個視位特征,其中,所述多個視位特征中的一個視位特征是利用所述多個第一圖像中的一個第一圖像的深度信息中所述說話者的舌頭的深度信息獲得的;
所述至少一個處理器利用所述多個視位特征確定與所述說出的話語相對應(yīng)的詞語序列,所述詞語序列包括至少一個詞語;以及
一個人機界面(HMI)輸出模型利用所述詞語序列來輸出響應(yīng)。
2.根據(jù)權(quán)利要求1所述的方法,還包括:
當所述說話者正在說出所述話語時,一個相機生成照射所述說話者的舌頭的紅外光;以及
所述相機攝取所述多個第一圖像。
3.根據(jù)權(quán)利要求1所述的方法,其中,
所述至少一個處理器接收所述多個第一圖像的步驟包括:
所述至少一個處理器接收多個圖像集,其中,每個圖像集包括所述多個第一圖像的一個對應(yīng)第二圖像和一個對應(yīng)第三圖像,所述對應(yīng)第三圖像具有增強所述對應(yīng)第二圖像的深度信息的顏色信息;以及
所述至少一個處理器利用所述多個第一圖像提取所述多個視位特征的步驟包括:
所述至少一個處理器利用所述多個圖像集提取所述多個視位特征,其中,所述多個圖像集包括第一圖像集,所述多個視位特征中的所述一個視位特征是利用所述第一圖像集的深度信息和顏色信息中對應(yīng)于所述舌頭的深度信息和顏色信息獲得的。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述至少一個處理器利用所述多個第一圖像提取所述多個視位特征的步驟包括:
所述至少一個處理器生成對應(yīng)于所述多個第一圖像的多個口相關(guān)部嵌入,其中,每個口相關(guān)部嵌入包括利用所述舌頭的深度信息生成的第一元素;以及
所述至少一個處理器追蹤所述口相關(guān)部的形變,從而利用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)根據(jù)所述多個口相關(guān)部嵌入所反映的所述話語的語境,生成所述多個視位特征。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述RNN包括雙向長短期記憶(LSTM)網(wǎng)絡(luò)。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述至少一個處理器利用所述多個視位特征確定與所述說出的話語相對應(yīng)的詞語序列的步驟包括:
所述至少一個處理器確定映射到所述多個視位特征的字符的多個概率分布;以及
所述至少一個處理器實現(xiàn)的一個連接時序分類(CTC)損失層利用映射到所述多個視位特征的字符的所述多個概率分布來確定所述詞語序列。
7.根據(jù)權(quán)利要求1所述的方法,其中,所述至少一個處理器利用所述多個視位特征確定與所述說出的話語相對應(yīng)的詞語序列的步驟包括:
所述至少一個處理器實現(xiàn)的一個解碼器利用所述多個視位特征確定與所述說出的話語相對應(yīng)的所述詞語序列。
8.根據(jù)權(quán)利要求1所述的方法,其中,所述多個視位特征中的一個視位特征是利用所述多個第一圖像中的一個第一圖像的深度信息中所述說話者的舌頭、嘴唇、牙齒和面部肌肉的深度信息獲得的。
9.一種系統(tǒng),包括:
至少一個存儲器,配置成存儲多個程序指令;
至少一個處理器,配置成執(zhí)行所述多個程序指令,所述多個程序指令使所述至少一個處理器執(zhí)行多個步驟,所述多個步驟包括:
接收多個第一圖像,所述多個第一圖像包括說出話語的說話者的至少一個口相關(guān)部,每個第一圖像具有深度信息;
利用所述多個第一圖像提取多個視位特征,其中,所述多個視位特征中的一個視位特征是利用所述多個第一圖像中的一個第一圖像的深度信息中所述說話者的舌頭的深度信息獲得的;和
利用所述多個視位特征確定與所述說出的話語相對應(yīng)的詞語序列,所述詞語序列包括至少一個詞語;以及
一個人機界面(HMI)輸出模型,配置成利用所述詞語序列來輸出響應(yīng)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于OPPO廣東移動通信有限公司,未經(jīng)OPPO廣東移動通信有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980052681.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





