[發(fā)明專利]一種多模態(tài)發(fā)音數(shù)據(jù)采集方法與系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011423644.3 | 申請日: | 2020-12-08 |
| 公開(公告)號: | CN114615450B | 公開(公告)日: | 2023-02-17 |
| 發(fā)明(設計)人: | 劉娟;蘇榮鋒;王嵐;燕楠 | 申請(專利權)人: | 中國科學院深圳先進技術研究院 |
| 主分類號: | H04N5/76 | 分類號: | H04N5/76;G10L25/03;G10L25/51;G11B20/10;G06F9/48;A61B5/00 |
| 代理公司: | 北京市誠輝律師事務所 11430 | 代理人: | 范盈 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多模態(tài) 發(fā)音 數(shù)據(jù) 采集 方法 系統(tǒng) | ||
本發(fā)明公開一種多模態(tài)發(fā)音數(shù)據(jù)采集方法和系統(tǒng),采集方法包括以下步驟:1)、建立漢語發(fā)聲文本材料及任務,2)、采集多維度信息,3)、多維度信息采集結果的同步處理,4)、發(fā)音特征提取及分析;設計標準化的漢語特色文本材料和采集任務,通過融合呼吸、語音、視頻等多種設備,開發(fā)多設備多通道之間的數(shù)據(jù)同步采集方法,搭建可面向正常人群及言語障礙等特殊人群的多模態(tài)發(fā)音數(shù)據(jù)同步采集平臺,擴充語料內容,結合音節(jié)、單字、詞語、句子和會話等全面的漢語特色化材料,同時標準化同步采集方法和步驟,規(guī)范化數(shù)據(jù)存儲與分析,建立一種專業(yè)化的適用于全體人群的多模態(tài)發(fā)音數(shù)據(jù)采集方法和系統(tǒng)。
技術領域
本發(fā)明屬于信息技術領域,涉及一種多模態(tài)發(fā)音數(shù)據(jù)采集方法和系統(tǒng)。
背景技術
在漢語發(fā)音數(shù)據(jù)采集方面,相關研究十分匱乏。主要原因是大部分研究集中在語音數(shù)據(jù)的分析與識別上[1 2 3],忽略了對發(fā)音數(shù)據(jù)采集方法的更新與改進,從而導致缺少適用于正常人群和言語障礙等人群在內的可面向全體人群的專業(yè)的發(fā)音數(shù)據(jù)采集方法和系統(tǒng)。另外,大量研究只以語音數(shù)據(jù)為主,缺少多維度的數(shù)據(jù)采集平臺和方法,雖然后期逐漸有研究開始借助多種設備,比如電磁發(fā)音儀、超聲等,提取不同的言語信號特征,包括共振峰、音高(pitch)、能量(energy)、語速(speaking rate)等語音特征,發(fā)音器官的舌部、下頜、唇部等運動特征,采用深度學習、模式識別等高級算法,探究言語障礙患者等不同群體言語生成的發(fā)聲機制[4 5 6]。但整體來說并沒有適用于包括正常人群及言語障礙患者等在內的全體人群的發(fā)音數(shù)據(jù)采集方法與系統(tǒng),且現(xiàn)有采集方法單調片面,不具備專業(yè)化的漢語文本、任務設計以及標準化的采集流程,進而造成“多模態(tài)發(fā)音數(shù)據(jù)采集方法與系統(tǒng)”這一研究空白與臨床短板。
尤其是考慮到言語障礙患者的語言癥狀與身體特征,其具體的發(fā)音數(shù)據(jù)采集和分析標準國內外尚未統(tǒng)一。一方面可能是因為患者的發(fā)音言語數(shù)據(jù)很難進行大規(guī)模采集,大部分研究的數(shù)據(jù)規(guī)模較小,各方面數(shù)據(jù)分散不全,采集內容、方法單一,缺乏標準化的多模態(tài)數(shù)據(jù)采集方法和系統(tǒng)[7]。國外相關研究較為成熟多樣,且部分研究者已融合超聲舌位[89]和呼吸訓練[10]等多維度方法用于言語障礙患者發(fā)音數(shù)據(jù)的采集與治療。我國缺少專門針對于漢語文化的特色化數(shù)據(jù)采集方法,且任務設計缺乏嚴謹性,不同研究之間數(shù)據(jù)采集與分析方法參差不齊[11 12]。另外,雖然國內外研究已結合多種設備,但目前只集中在治療方面,極少有研究結合超聲、呼吸等多維度信息,綜合探索漢語發(fā)音數(shù)據(jù)采集方法的更新和改進,而這個問題又是科研和臨床都急需解決的難題[13 14]。
參考文獻:
[1].Lansford Kaitlin L,Liss Julie M.Vowel acoustics in dysarthria:speech disorder diagnosis and classification.[J].Journal of speech,language,and hearing research:JSLHR,2014,57(1).
[2].Darley F L,Aronson A E,Brown J R.Differential diagnostic patternsof dysarthria.[J].Journal of speech and hearing research,1969,12(2).
[3].Kent R D,WeismerG,Kent J F,Rosenbek J C.Toward phoneticintelligibility testing in dysarthria.[J]. The Journal of speech and hearingdisorders,1989,54(4).
[4].Bruce E.Murdoch,Justine V.,e.EMA analysis of tongue functionin children with dysarthria following traumatic brain injury[J].Brain Injury,2003,17(1).
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院深圳先進技術研究院,未經(jīng)中國科學院深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011423644.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學習的多模態(tài)醫(yī)學影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學習的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向寬域飛行的多模態(tài)精確劃分方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





