[發(fā)明專利]一種基于單目攝像頭的帶噪音語音識別系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 201611024686.3 | 申請日: | 2016-11-14 |
| 公開(公告)號: | CN108073875A | 公開(公告)日: | 2018-05-25 |
| 發(fā)明(設(shè)計(jì))人: | 梁鵬;郝剛;吳玉婷 | 申請(專利權(quán))人: | 廣東技術(shù)師范學(xué)院 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G10L15/22 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510665 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視覺處理模塊 音頻處理模塊 語音識別模塊 語音識別系統(tǒng) 單目攝像頭 輸出 圖像采集模塊 音頻采集模塊 用戶音頻 噪音 采集 對視頻數(shù)據(jù) 麥克風(fēng) 零件摩擦 融合策略 使用數(shù)據(jù) 視頻信息 特征融合 音頻數(shù)據(jù) 音頻信息 語音模塊 語音識別 噪音干擾 嘴唇圖像 嘴唇形狀 準(zhǔn)確率 馬達(dá) 機(jī)器人 融合 | ||
本發(fā)明公開一種基于單目攝像頭的帶噪音語音識別系統(tǒng)及方法,所述系統(tǒng)包括圖像采集模塊、視覺處理模塊、音頻采集模塊、音頻處理模塊、語音識別模塊;所述圖像采集模塊使用單目攝像頭采集嘴唇形狀并輸出至視覺處理模塊;所述視覺處理模塊對嘴唇圖像進(jìn)行處理并將結(jié)果輸出至語音識別模塊;音頻采集模塊使用麥克風(fēng)采集用戶音頻并輸出至音頻處理模塊;所述音頻處理模塊對用戶音頻進(jìn)行處理并輸出至語音識別模塊;所述語音模塊使用數(shù)據(jù)融合策略對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行融合,實(shí)現(xiàn)語音識別。本發(fā)明通過使用視頻信息與音頻信息兩種特征,使用特征融合策略,有效避免如機(jī)器人馬達(dá),零件摩擦等造成的噪音干擾,提高了語音識別系統(tǒng)的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及語音識別技術(shù),具體設(shè)計(jì)一種基于單目攝像頭的帶噪音語音識別系統(tǒng)及方法。
背景技術(shù)
隨著人機(jī)交互技術(shù)發(fā)展,機(jī)器人被期望能擁有像人類一樣的感知能力并能與人類合作共事。為實(shí)現(xiàn)這一目標(biāo),一些研究者使用語音技術(shù)來讓機(jī)器人理解人類的語言。
但是,運(yùn)動狀態(tài)中的機(jī)器人不可避免的會產(chǎn)生噪音,比如電動風(fēng)扇和馬達(dá)產(chǎn)生的噪音,因麥克風(fēng)更靠近機(jī)器人,因此這些噪音相比用戶的語言信息更易獲取,造成了機(jī)器人語音識別效果不佳。
申請公布號為CN201610615354.6的發(fā)明專利公開了基于自然語言的機(jī)器人控制系統(tǒng)及控制方法,方法包括接收用戶輸入的自然語言聲波信號;將自然語言聲波信號轉(zhuǎn)換為語言文字信息;對語言文字信息進(jìn)行分析分解,信息分解結(jié)果為根據(jù)不同詞性將所述語言文字信息分類而組合成的詞語集合;根據(jù)預(yù)置的詞匯庫對所述詞語集合進(jìn)行語義匹配,獲取所述詞語集合的行為匹配結(jié)果;將行為匹配結(jié)果轉(zhuǎn)換成語音輸出;通過人機(jī)對話模式對行為匹配結(jié)果進(jìn)行確認(rèn);對確認(rèn)的行為匹配結(jié)果進(jìn)行行為分解,并依照行為分解結(jié)果控制機(jī)器人的執(zhí)行。
申請公布號為CN201410771233.1的發(fā)明專利公開了一種機(jī)器人語音識別方法,包含步驟1:打開音頻傳感器,采集音頻信號;步驟2:對采集到的音頻信號,進(jìn)行模數(shù)轉(zhuǎn)換;步驟3:將轉(zhuǎn)換后代數(shù)字信號送人模式識別緩沖區(qū);步驟4:對模式識別緩沖區(qū)中的信號按照振幅做離散化處理;步驟5:將按照振幅做離散化處理的數(shù)據(jù),在模式識別數(shù)據(jù)庫中進(jìn)行匹配算法;步驟6:對所有命令依據(jù)匹配算法的結(jié)果進(jìn)行概率運(yùn)算;步驟7:按照概率從大到小的方式排序;步驟8:將概率最大的命令作為結(jié)果輸出。
上述發(fā)明專利中,都是通過對音頻信息進(jìn)行加工處理,來提高語音識別效果,但噪音仍參與上述的加工處理過程,因此造成語音識別的效果仍然有較大誤差。
發(fā)明內(nèi)容
本發(fā)明目的在于克服傳統(tǒng)方法中的不足,提供一種基于單目攝像頭的帶噪音語音識別系統(tǒng)及方法。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案為:
本發(fā)明的目的在于提高一種基于單目攝像頭的帶噪音語音識別系統(tǒng),其中,所述系統(tǒng)包括圖像采集模塊、視覺處理模塊、音頻采集模塊、音頻處理模塊、語音識別模塊;所述圖像采集模塊使用單目攝像頭采集嘴唇形狀并輸出至視覺處理模塊;所述視覺處理模塊對嘴唇圖像進(jìn)行處理并將結(jié)果輸出至語音識別模塊;音頻采集模塊使用麥克風(fēng)采集用戶音頻并輸出至音頻處理模塊;所述音頻處理模塊對用戶音頻進(jìn)行處理并輸出至語音識別模塊;所述語音模塊使用數(shù)據(jù)融合策略對視頻數(shù)據(jù)和音頻數(shù)據(jù)進(jìn)行融合,實(shí)現(xiàn)語音識別。
本發(fā)明的另一個(gè)目的還在于提供一種基于單目攝像頭的帶噪音語音識別方法,其中,所述基于單目攝像頭的帶噪音語音識別方法包括以下步驟:S1,獲取視頻源;S2,使用圖像處理采集唇區(qū),及獲取嘴唇變化特征;S3,獲取音頻信息,及提取音頻特征;S4,進(jìn)行多流特征融合;S5,使用HMM模型建模并得出結(jié)果。
進(jìn)一步地,本發(fā)明步驟S2中,具體包括以下步驟:S21對圖像進(jìn)行色彩空間轉(zhuǎn)換,S22膚色閾值處理,S23圖像去噪處理,S24圖像二值處理,S25開運(yùn)算處理,S26嘴唇區(qū)域定位并計(jì)算特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東技術(shù)師范學(xué)院,未經(jīng)廣東技術(shù)師范學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611024686.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 貨運(yùn)列車超限計(jì)算機(jī)視覺檢測系統(tǒng)
- 一種多維視覺眼訓(xùn)練引導(dǎo)儀
- 一種用于機(jī)器視覺系統(tǒng)的互聯(lián)通訊設(shè)備
- 一種視覺導(dǎo)航型AGV小車的控制系統(tǒng)及方法
- 一種視覺健康管理系統(tǒng)
- 一種人臉及手型手勢的雙模態(tài)識別系統(tǒng)
- 一種工件處理系統(tǒng)、方法、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種工件處理系統(tǒng)
- 一種基于機(jī)器視覺定位引導(dǎo)新能源汽車智能換電系統(tǒng)
- 一種高精度的全尺寸視覺圖像獲取系統(tǒng)及方法
- 一種協(xié)助記憶古詩文的學(xué)習(xí)機(jī)
- 一種協(xié)助記憶古詩文的學(xué)習(xí)機(jī)
- 對待測試語音識別系統(tǒng)的自動測試方法和裝置
- 共用一套麥克風(fēng)陣列的服務(wù)機(jī)器人雙語音識別方法
- 一種基于云計(jì)算與置信度計(jì)算的語音識別方法與系統(tǒng)
- 一種視頻監(jiān)控聯(lián)網(wǎng)系統(tǒng)
- 一種用于智能出行的車輛語音輸入控制方法
- 一種用于智能出行的車輛語音輸入控制系統(tǒng)
- 一種服務(wù)機(jī)器人語音識別方法
- 語音識別系統(tǒng)優(yōu)化方法、裝置、設(shè)備及可讀存儲介質(zhì)





