[發(fā)明專利]一種基于唇語(yǔ)識(shí)別的人工智能發(fā)聲系統(tǒng)及發(fā)聲方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810705967.8 | 申請(qǐng)日: | 2018-06-27 |
| 公開(kāi)(公告)號(hào): | CN108831472B | 公開(kāi)(公告)日: | 2022-03-11 |
| 發(fā)明(設(shè)計(jì))人: | 程德斌;劉學(xué)奎;詹羽榮;趙常均;吳迪;趙政;李茵 | 申請(qǐng)(專利權(quán))人: | 中山大學(xué)腫瘤防治中心;廣州智能裝備研究院有限公司 |
| 主分類號(hào): | G10L15/25 | 分類號(hào): | G10L15/25;G10L15/16;G10L13/02;G10L13/04 |
| 代理公司: | 北京捷誠(chéng)信通專利事務(wù)所(普通合伙) 11221 | 代理人: | 王衛(wèi)東 |
| 地址: | 510000 *** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 識(shí)別 人工智能 發(fā)聲 系統(tǒng) 方法 | ||
本發(fā)明公開(kāi)了一種基于唇語(yǔ)識(shí)別的人工智能發(fā)聲系統(tǒng)及發(fā)聲方法,系統(tǒng)包括:視頻采集模塊、無(wú)線發(fā)射模塊、中央信號(hào)處理模塊、無(wú)線接收模塊、電子發(fā)聲模塊;首先,視頻采集模塊采集人體對(duì)象嘴唇區(qū)域的視頻;然后,中央信號(hào)處理模塊對(duì)視頻信息進(jìn)行處理,利用人工智能技術(shù)分析每段視頻所代表的語(yǔ)言信息;最后,電子發(fā)聲模塊根據(jù)分析結(jié)果信息進(jìn)行發(fā)聲。本發(fā)明可應(yīng)用于無(wú)喉患者的發(fā)聲,與現(xiàn)有的電子喉相比有兩個(gè)顯著優(yōu)點(diǎn):一是系統(tǒng)采用基于唇語(yǔ)識(shí)別的發(fā)聲方法,使用時(shí)不需要手握裝置,給用戶帶來(lái)更加舒適的發(fā)聲體驗(yàn);二是系統(tǒng)采用電子發(fā)聲方式進(jìn)行發(fā)聲,讓聲音聽(tīng)起來(lái)更加自然。
技術(shù)領(lǐng)域
本發(fā)明涉及醫(yī)學(xué)儀器領(lǐng)域,特別是涉及一種基于唇語(yǔ)識(shí)別的人工智能發(fā)聲系統(tǒng)及發(fā)聲方法。
背景技術(shù)
全喉切除術(shù)后的患者在腫瘤被切除的同時(shí),平時(shí)發(fā)音的聲帶也被切除,導(dǎo)致正常的語(yǔ)言交流功能喪失,生活質(zhì)量大大下降。目前主要的解決方法是讓患者使用電子喉,將電子喉的振動(dòng)頭端放置于喉部下方進(jìn)行發(fā)聲。這種方式有兩個(gè)缺點(diǎn)。一是患者使用時(shí)需要用手握住電子喉,同時(shí)抵住喉部,使用起來(lái)不方便;二是電子喉的聲音屬于金屬音,聽(tīng)起來(lái)不自然。
發(fā)明內(nèi)容
針對(duì)上述不足,本發(fā)明提供了一種基于唇語(yǔ)識(shí)別的人工智能發(fā)聲系統(tǒng)及發(fā)聲方法,其技術(shù)方案為:
一種基于唇語(yǔ)識(shí)別的人工智能發(fā)聲系統(tǒng),包括:視頻采集模塊、無(wú)線發(fā)射模塊、中央信號(hào)處理模塊、無(wú)線接收模塊、電子發(fā)聲模塊。
視頻采集模塊,用于采集人體對(duì)象嘴唇區(qū)域的視頻;
無(wú)線發(fā)射模塊,用于視頻信息傳輸至中央信號(hào)處理模塊;
中央信號(hào)處理模塊,利用人工智能技術(shù)分析每段視頻信號(hào)所代表的語(yǔ)言信息,并輸出分析結(jié)果;
無(wú)線接收模塊,用于接收中央信號(hào)處理模塊的分析結(jié)果信息;
電子發(fā)聲器,用于將分析結(jié)果轉(zhuǎn)換成聲音。
進(jìn)一步優(yōu)選地,所述視頻采集模塊采集視頻的方式包括:彩色相機(jī)采集方式、紅外相機(jī)采集方式、深度相機(jī)采集方式。
進(jìn)一步優(yōu)選地,所述無(wú)線發(fā)射模塊和無(wú)線接收模塊包括:4G-LTE模塊、5G模塊。
一種基于唇語(yǔ)識(shí)別的人工智能發(fā)聲方法,其特征在于,包括以下步驟:
S1.網(wǎng)絡(luò)模型訓(xùn)練:
S11.采集人體對(duì)象嘴唇區(qū)域的視頻;
S12.對(duì)視頻進(jìn)行語(yǔ)言信息標(biāo)記,形成語(yǔ)言標(biāo)簽;
S13.對(duì)視頻進(jìn)行數(shù)據(jù)預(yù)處理,形成輸入數(shù)據(jù);
S14.重復(fù)上述步驟k次,采集k組視頻信號(hào);
S15.將輸入數(shù)據(jù)和語(yǔ)音標(biāo)簽輸入深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,生成網(wǎng)絡(luò)模型;
S2.語(yǔ)言信息預(yù)測(cè)
S21.采集人體對(duì)象嘴唇區(qū)域的視頻;
S22.對(duì)視頻進(jìn)行數(shù)據(jù)預(yù)處理,形成輸入數(shù)據(jù);
S23.利用訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型對(duì)輸入數(shù)據(jù)進(jìn)行語(yǔ)言類別的預(yù)測(cè),輸出分析結(jié)果;
S24.將分析結(jié)果信號(hào)轉(zhuǎn)換成模擬信號(hào),輸入電子發(fā)聲模塊進(jìn)行發(fā)聲。
進(jìn)一步優(yōu)選地,所述S14和S23中的深度神經(jīng)網(wǎng)絡(luò)模型包括:
對(duì)所述人體對(duì)象嘴唇區(qū)域的視頻進(jìn)行二維卷積處理,獲得視頻中唇部的圖像特征;
將圖像特征輸入雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BLSTM模型,獲得輸出結(jié)果;
將輸入結(jié)果輸入全連接分類器,獲得視頻所代表的語(yǔ)言信息分類。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中山大學(xué)腫瘤防治中心;廣州智能裝備研究院有限公司,未經(jīng)中山大學(xué)腫瘤防治中心;廣州智能裝備研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810705967.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 使用基于云端的度量迭代訓(xùn)練人工智能的系統(tǒng)
- 一種人工智能轉(zhuǎn)人工智能再轉(zhuǎn)人工方案
- O-RAN系統(tǒng)中的人工智能模型處理方法和裝置
- 人工智能傷口評(píng)估方法及智能終端
- 人工智能倫理風(fēng)險(xiǎn)與防范虛擬仿真方法、系統(tǒng)和機(jī)器人
- 一種基于人工智能基礎(chǔ)資源與技術(shù)調(diào)控系統(tǒng)及方法
- 基于人工智能倫理備選規(guī)則的人工智能倫理風(fēng)險(xiǎn)防范方法
- 人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范虛擬仿真實(shí)驗(yàn)方法和機(jī)器人
- 基于人工智能體決策的人工智能倫理風(fēng)險(xiǎn)辨識(shí)和防范方法
- 基于算法選擇的人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范方法和機(jī)器人





