[發(fā)明專利]一種AR/MR設備語音識別的方法和裝置及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011587781.0 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112735393A | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設計)人: | 黃石磊;劉軼;王昕 | 申請(專利權)人: | 深港產(chǎn)學研基地(北京大學香港科技大學深圳研修院);北京大學深圳研究院 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/22;G10L15/26;G10L15/28;G06F3/0488 |
| 代理公司: | 深圳市萬商天勤知識產(chǎn)權事務所(普通合伙) 44279 | 代理人: | 羅建平 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 ar mr 設備 語音 識別 方法 裝置 系統(tǒng) | ||
本發(fā)明公開了一種AR/MR設備語音識別的方法和裝置及系統(tǒng)。所述方法包括:在AR/MR設備的虛擬視場中顯示一投射屏幕和一虛擬屏幕,投射屏幕是將智能手持設備的顯示屏幕投射到虛擬視場中形成的;在智能手持設備的顯示屏幕上顯示一語音識別功能界面;根據(jù)用戶在智能手持設備語音識別功能界面的操作,進行語音錄入和語音識別,將識別出的多個候選結果顯示在虛擬屏幕上,對多個候選結果進行選擇和確認。本發(fā)明利用AR/MR更加方面、更加清晰的顯示語音識別的多個候選結果,不會影響智能手持設備本身的應用界面;通過語音識別功能界面進行觸摸滑動,可以更加方便直觀的選擇候選結果,提高了操作便捷性,可以實現(xiàn)手不離設備的操作和單手操作。
技術領域
本發(fā)明涉及語音識別技術領域,具體涉及一種AR/MR設備語音識別的方法和裝置及系統(tǒng)。
背景技術
語音識別(Speech Recognition)技術,也被稱為自動語音識別(AutomaticSpeech Recognition,ASR),其目標是將語音中的內(nèi)容(Content)轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列(text),并進行相應的操作。
語音識別的主流技術已從基于隱馬爾科夫模型(Hidden Markov Model,HMM),轉(zhuǎn)換到基于深度神經(jīng)網(wǎng)絡(Deep Neural Network/DNN)的語音識別系統(tǒng)。在語音識別任務中,一般需要聲學模型(Acoustic Model)和語言模型(Language Model)。當前語音識別逐漸轉(zhuǎn)向WFST(weighted finaite-state transducer,加權有限狀態(tài)轉(zhuǎn)換器)+深度神經(jīng)網(wǎng)絡的框架。
語音識別交互的時候,可能會有識別錯誤,而且會存在模糊識別,因此,一般識別結果會包括若干個候選,如何方便的選擇候選是很重要的。現(xiàn)有的多候選主要有兩種形式。
第一種是以選擇列表形式顯示多個候選,并覆蓋當前視圖。該方式在小屏幕得智能設備上經(jīng)常出現(xiàn)。這里多個候選的意思是,根據(jù)語音輸入的內(nèi)容,依照一定的算法,得到一些結果(也稱為候選或者候選結果),這里每個結果至少包含兩部分內(nèi)容,一個是識別內(nèi)容(文字),另一部分是一種得分,這個得分可以用于給結果排序,得分較高的排列到前面,當然也可以得分較低的在前面。
一個例子是:通過語音導航說出“上海浦東機場”,語音識別后顯示多個候選,例如,“上海浦東國際機場”、“上海浦東國際機場2號航站樓”、“上海國際機場地鐵站”等,用戶點擊相應的識別結果,進行操作。
另一個例子是:假設用戶真實的語音是“撥號給劉先生”,語音識別系統(tǒng)返回的多個候選可能包括:候選1:{“撥號給劉先生”,0.8};候選2:{“撥號給劉先勝”,0.6};候選3:{“剝好給劉先生”0.4}。
第二種是純語音方式,理論上不需要視圖,語音識別結果為多個可能候選。
一個例子是:假設用戶真實的語音是“撥號給劉先生”,語音識別系統(tǒng)用語音反饋:“找到多個識別結果,請按照序號選擇:一、撥號給劉先生13512345678;二撥號給劉險勝13811111111”。用戶再次使用語音確認所需操作到底是一還是二。
現(xiàn)有多候選的主要缺陷在于:
1.如果是視圖(選擇列表)的多候選,主要問題在于候選項較多時,會遮擋原有應用的界面;同時,如果候選項較多可能,屏幕可能容納不下或者會字體太小;以及,有時候需要另一只手幫忙點擊。
2.如果是純語音提示的形式,用戶不太容易記住候選,一般不方便反復聽,太多候選用戶容易忘記。
發(fā)明內(nèi)容
本發(fā)明主要解決的技術在于,提供一種AR/MR設備語音識別的方法,該方法以AR/MR方式顯示多個候選結果,并提供更好的候選結果選擇方式,用以避免候選結果遮擋應用界面,提高操作便捷性。本發(fā)明還提供相應的裝置及系統(tǒng)。
為解決上述技術問題,本發(fā)明采用的技術方案如下。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深港產(chǎn)學研基地(北京大學香港科技大學深圳研修院);北京大學深圳研究院,未經(jīng)深港產(chǎn)學研基地(北京大學香港科技大學深圳研修院);北京大學深圳研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011587781.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





