[發(fā)明專利]基于音頻頻域特征的對(duì)話過(guò)程捂嘴手勢(shì)識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011131535.4 | 申請(qǐng)日: | 2020-10-21 |
| 公開(kāi)(公告)號(hào): | CN112259124B | 公開(kāi)(公告)日: | 2021-06-15 |
| 發(fā)明(設(shè)計(jì))人: | 喻純;李竹 | 申請(qǐng)(專利權(quán))人: | 交互未來(lái)(北京)科技有限公司 |
| 主分類號(hào): | G10L25/51 | 分類號(hào): | G10L25/51;G06F3/16;G06F21/32;H04R1/08;H04R1/10 |
| 代理公司: | 北京君莫知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11715 | 代理人: | 崔云鶴 |
| 地址: | 100015 北京市朝陽(yáng)區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 音頻 特征 對(duì)話 過(guò)程 手勢(shì) 識(shí)別 方法 | ||
本發(fā)明提出基于音頻頻域特征的對(duì)話過(guò)程捂嘴手勢(shì)識(shí)別方法,包括如下步驟:S1:建立語(yǔ)音接收組件與移動(dòng)終端的無(wú)線通信;S2:語(yǔ)音接收組件通過(guò)第一語(yǔ)音監(jiān)測(cè)通道和第二語(yǔ)音監(jiān)測(cè)通道接收語(yǔ)音輸入信號(hào);S3:所述第一語(yǔ)音監(jiān)測(cè)通道將接收的第一語(yǔ)音輸入信號(hào)發(fā)送至所述移動(dòng)終端;S4:所述移動(dòng)終端基于內(nèi)置的聲紋識(shí)別模型判斷當(dāng)前語(yǔ)音輸入是否為授權(quán)用戶輸入S5:第二語(yǔ)音監(jiān)測(cè)通道將接收的第二語(yǔ)音輸入信號(hào)發(fā)送至移動(dòng)終端;S6:移動(dòng)終端基于第一語(yǔ)音輸入信號(hào)和第二語(yǔ)音輸入信號(hào)各自的音頻頻域特征比對(duì)進(jìn)行捂嘴手勢(shì)識(shí)別。本發(fā)明能夠識(shí)別用戶語(yǔ)音輸入過(guò)程中的捂嘴手勢(shì),捂嘴手勢(shì)的不同姿勢(shì)以及連續(xù)變化,以支持豐富的語(yǔ)音輸入控制操作。
技術(shù)領(lǐng)域
本發(fā)明屬于人機(jī)智能交互技術(shù)領(lǐng)域,尤其涉及一種基于音頻頻域特征的對(duì)話過(guò)程捂嘴手勢(shì)識(shí)別。
背景技術(shù)
手勢(shì)交互、觸控交互和語(yǔ)音交互是當(dāng)下主要的3種交互方式。語(yǔ)音交互需要用戶能進(jìn)行聽(tīng)和說(shuō);觸控交互需要用戶能和設(shè)備進(jìn)行接觸;手勢(shì)交互需要用戶的手能自由移動(dòng)。但在一些場(chǎng)景下,用戶并沒(méi)有條件進(jìn)行上述交互行為。以醫(yī)生為例,可能在他已經(jīng)對(duì)雙手進(jìn)行嚴(yán)格消毒后,仍需要查看病人的相關(guān)資料。但是他無(wú)法確保,所有的屏幕、X光片、檔案等都是干凈的。這時(shí)如果能通過(guò)非接觸的手勢(shì)或語(yǔ)音進(jìn)行操作,就不會(huì)有被污染的風(fēng)險(xiǎn)。
用戶一直認(rèn)為使用語(yǔ)音輸入與計(jì)算設(shè)備進(jìn)行交互是一種方便自然的交互方法。語(yǔ)音輸入可用于多種任務(wù),包括文本輸入,通信和發(fā)送語(yǔ)音命令。但是,語(yǔ)音輸入存在兩個(gè)主要挑戰(zhàn)。首先,用戶擔(dān)心在講話時(shí)泄露其個(gè)人信息的隱私風(fēng)險(xiǎn);其次,在多輪語(yǔ)音輸入過(guò)程中,他們不方便反復(fù)講起喚醒詞或按下按鈕。
然而,進(jìn)行語(yǔ)音交互時(shí),用戶需要把指令說(shuō)出來(lái)。這其中最主要的實(shí)現(xiàn)技術(shù)就是喚醒詞。當(dāng)只有自己一人時(shí),說(shuō)些什么可能都沒(méi)有關(guān)系。但當(dāng)人多起來(lái)時(shí),尤其是不熟悉的人多起來(lái)時(shí),當(dāng)眾說(shuō)一些東西會(huì)讓用戶覺(jué)得自己很傻,并且還涉及到隱私保護(hù)的問(wèn)題?,F(xiàn)有技術(shù)中所有的語(yǔ)音助手,都還是被動(dòng)地交談,你必須給出命令,它們才會(huì)應(yīng)答。例如,智能音箱。當(dāng)人正在與他人進(jìn)行交流時(shí),使用語(yǔ)音進(jìn)行交互是一件打斷性非常強(qiáng)的事情。例如幾個(gè)人聊天聊得正嗨,想要播放音樂(lè)或調(diào)解燈光來(lái)營(yíng)造氣氛,突然來(lái)一句“小x同學(xué),播放音樂(lè)″會(huì)顯得很突兀。
為解決上述技術(shù)問(wèn)題,本申請(qǐng)人先前提交了幾份專利申請(qǐng),在如下四個(gè)方面上提出了多項(xiàng)新的技術(shù)方案:1、基于人類說(shuō)話時(shí)風(fēng)噪聲特征的語(yǔ)音輸入觸發(fā),具體地,通過(guò)識(shí)別人說(shuō)話時(shí)候的語(yǔ)音和風(fēng)噪聲音來(lái)直接啟動(dòng)語(yǔ)音輸入并將接收的聲音信號(hào)作為語(yǔ)音輸入處理;2、基于多個(gè)麥克風(fēng)接收的聲音信號(hào)的差別的語(yǔ)音輸入觸發(fā);3、基于低聲說(shuō)話方式識(shí)別的語(yǔ)音輸入觸發(fā);4、基于麥克風(fēng)的聲音信號(hào)的距離判斷的語(yǔ)音輸入觸發(fā),相關(guān)專利申請(qǐng)公開(kāi)案號(hào)為CN110262767A、CN110223711A、CN110428806A、CN110111776A、CN110097875A、CN110164440A,本文將這幾篇專利文獻(xiàn)全文并入,作為本公開(kāi)的內(nèi)容。
進(jìn)一步的,中國(guó)發(fā)明專利申請(qǐng)CN202010198596.6提出能夠識(shí)別用戶捂嘴手勢(shì)下發(fā)聲的單耳耳機(jī)、智能電子便攜設(shè)備和語(yǔ)音交互喚醒方法。單耳耳機(jī)具有耳內(nèi)麥克風(fēng)和耳外麥克風(fēng),以及具有一塊電路板,電路板上具有存儲(chǔ)器和處理器,存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行時(shí)能夠執(zhí)行如下操作:接收所述耳內(nèi)麥克風(fēng)和耳外麥克風(fēng)采集的信號(hào);分析耳內(nèi)麥克風(fēng)和耳外麥克風(fēng)采集的信號(hào),識(shí)別用戶是否在做捂嘴手勢(shì)的狀態(tài)下發(fā)聲。所述識(shí)別結(jié)果可以觸發(fā)語(yǔ)音輸入。
然而,在實(shí)際應(yīng)用中,申請(qǐng)人發(fā)現(xiàn)上述方法還存在進(jìn)一步改進(jìn)的空間,尤其是在用單側(cè)捂嘴動(dòng)作對(duì)于同一側(cè)耳機(jī)外部麥克風(fēng)收音能量的減少來(lái)做捂嘴動(dòng)作的識(shí)別效率方面,現(xiàn)有技術(shù)有待進(jìn)一步提高。
發(fā)明內(nèi)容
為此,本發(fā)明提出基于音頻頻域特征的對(duì)話過(guò)程捂嘴手勢(shì)識(shí)別方法和相應(yīng)的計(jì)算機(jī)可讀存貯介質(zhì)。本發(fā)明的技術(shù)方案能夠基于兩路音頻的傳遞函數(shù)(transfer function),更加全面的感知和比較兩路音頻傳播途徑的區(qū)別,進(jìn)而識(shí)別和分類捂嘴手勢(shì),同時(shí)利用單耳機(jī)實(shí)現(xiàn)對(duì)是否存在捂嘴手勢(shì),捂嘴手勢(shì)的類型,捂嘴手勢(shì)的連續(xù)變化分別進(jìn)行了識(shí)別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于交互未來(lái)(北京)科技有限公司,未經(jīng)交互未來(lái)(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011131535.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置
- 對(duì)話控制裝置、對(duì)話控制方法以及記錄介質(zhì)
- 任務(wù)對(duì)話系統(tǒng)中的對(duì)話處理方法及裝置
- 一種人機(jī)對(duì)話的方法、裝置和存儲(chǔ)介質(zhì)
- 對(duì)話(中)獎(jiǎng)勵(lì)評(píng)估和對(duì)話方法、介質(zhì)、裝置和計(jì)算設(shè)備
- 一種對(duì)話方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 一種輔助英文對(duì)話的方法及系統(tǒng)
- 一種回復(fù)對(duì)話評(píng)分模型訓(xùn)練方法、對(duì)話回復(fù)方法及其裝置
- 一種多輪對(duì)話的問(wèn)題定位方法及裝置
- 文本對(duì)話方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 對(duì)話型文本分類方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)





