[發明專利]一種基于唇語識別的人工智能發聲系統及發聲方法有效
| 申請號: | 201810705967.8 | 申請日: | 2018-06-27 |
| 公開(公告)號: | CN108831472B | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 程德斌;劉學奎;詹羽榮;趙常均;吳迪;趙政;李茵 | 申請(專利權)人: | 中山大學腫瘤防治中心;廣州智能裝備研究院有限公司 |
| 主分類號: | G10L15/25 | 分類號: | G10L15/25;G10L15/16;G10L13/02;G10L13/04 |
| 代理公司: | 北京捷誠信通專利事務所(普通合伙) 11221 | 代理人: | 王衛東 |
| 地址: | 510000 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 識別 人工智能 發聲 系統 方法 | ||
1.一種基于唇語識別的人工智能發聲系統,其特征在于,包括:視頻采集模塊、無線發射模塊、中央信號處理模塊、無線接收模塊、電子發聲模塊;
視頻采集模塊,用于采集人體對象嘴唇區域的視頻,其中,采用眼鏡鏡框上的網絡攝像頭,采集嘴唇區域的視頻;
無線發射模塊,用于視頻信息傳輸至中央信號處理模塊;
中央信號處理模塊,利用訓練好的深度神經網絡模型對視頻信息進行語言類別的預測,并輸出分析結果;
無線接收模塊,用于接收中央信號處理模塊的分析結果信息;
電子發聲器,用于將分析結果轉換成聲音,固定在眼鏡末端;
所述深度神經網絡模型包括卷積模塊、雙向長短時記憶模塊和全連接分類器,卷積模塊對所述人體對象嘴唇區域的視頻進行二維卷積處理,獲得視頻中唇部的圖像特征;圖像特征輸入雙向長短時記憶模塊,獲得輸出結果;輸出結果輸入全連接分類器,獲得視頻所代表的語言信息分類;
所述深度神經網絡模型是通過如下方法訓練得到的:
采集人體對象嘴唇區域的視頻,并對視頻進行語言信息標記,形成語言標簽,用Y={y1,y2,...,ym,...,yi}來記錄每個語言標簽樣本,每個語言標簽樣本對應一個或者多個語言單元,其中ym是一個i維的One-Hot編碼向量;
對視頻進行數據預處理,形成輸入數據;
將輸入數據和語音標簽輸入深度神經網絡進行訓練,生成網絡模型。
2.根據權利要求1所述的基于唇語識別的人工智能發聲系統,其特征在于,所述的視頻采集模塊采集視頻的方式包括:彩色相機采集方式、紅外相機采集方式、深度相機采集方式。
3.根據權利要求1所述的基于唇語識別的人工智能發聲系統,其特征在于,所述的無線發射模塊和無線接收模塊包括:4G-LTE模塊、5G模塊。
4.一種基于唇語識別的人工智能發聲方法,其特征在于,包括以下步驟:
S1.網絡模型訓練:
S11.采集人體對象嘴唇區域的視頻;
S12.對視頻進行語言信息標記,形成語言標簽,用Y={y1,y2,...,ym,...,yi}來記錄每個語言標簽樣本,每個語言標簽樣本對應一個或者多個語言單元,其中ym是一個i維的One-Hot編碼向量;
S13.對視頻進行數據預處理,形成輸入數據;
S14.重復上述步驟k次,采集k組視頻信號;
S15.將輸入數據和語音標簽輸入深度神經網絡進行訓練,生成網絡模型;
S2.語言信息預測
S21.采集人體對象嘴唇區域的視頻;
S22.對視頻進行數據預處理,形成輸入數據;
S23.利用訓練好的深度神經網絡模型對輸入數據進行語言類別的預測,輸出分析結果;
S24.將分析結果信號轉換成模擬信號,輸入電子發聲模塊進行發聲;
上述方法中,采用眼鏡鏡框上的網絡攝像頭,采集嘴唇區域的視頻,電子發聲器固定在眼鏡末端;
所述深度神經網絡模型包括卷積模塊、雙向長短時記憶模塊和全連接分類器,卷積模塊對所述人體對象嘴唇區域的視頻進行二維卷積處理,獲得視頻中唇部的圖像特征;圖像特征輸入雙向長短時記憶模塊,獲得輸出結果;輸出結果輸入全連接分類器,獲得視頻所代表的語言信息分類。
5.根據權利要求4所述的方法,其特征在于,所述人體對象嘴唇區域的視頻進行二維卷積處理,獲得視頻中唇部的圖像特征包括:
對所述人體對象嘴唇區域的視頻進行二維卷積處理時,采用VGG網絡提取圖像特征。
6.根據權利要求4所述的基于唇語識別的人工智能發聲方法,其特征在于,所述步驟S13和S22中的對視頻進行數據預處理,形成輸入數據包括:
對所輸入的視頻逐幀進行唇部特征點提取處理,獲取唇部圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學腫瘤防治中心;廣州智能裝備研究院有限公司,未經中山大學腫瘤防治中心;廣州智能裝備研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810705967.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種通過語音控制BMS的方法與系統
- 下一篇:一種音頻處理方法及裝置





