[發(fā)明專(zhuān)利]海量音視頻情感識(shí)別系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202110253708.8 | 申請(qǐng)日: | 2021-03-09 |
| 公開(kāi)(公告)號(hào): | CN112633263B | 公開(kāi)(公告)日: | 2021-06-08 |
| 發(fā)明(設(shè)計(jì))人: | 陶建華;連政;劉斌;孫立才 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)科學(xué)院自動(dòng)化研究所 |
| 主分類(lèi)號(hào): | G06K9/00 | 分類(lèi)號(hào): | G06K9/00;G06K9/62;G10L15/02;G10L15/06;G10L15/16;G10L25/63;G06N3/04 |
| 代理公司: | 北京華夏泰和知識(shí)產(chǎn)權(quán)代理有限公司 11662 | 代理人: | 孫劍鋒;劉蔓莉 |
| 地址: | 100190 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 海量 視頻 情感 識(shí)別 系統(tǒng) | ||
本申請(qǐng)涉及海量音視頻情感識(shí)別系統(tǒng),包括:聲學(xué)特征抽取模塊,從音頻數(shù)據(jù)中抽取聲學(xué)特征;語(yǔ)音情感識(shí)別模型預(yù)訓(xùn)練模塊,利用海量無(wú)標(biāo)注的音頻數(shù)據(jù),對(duì)語(yǔ)音情感識(shí)別模型進(jìn)行預(yù)訓(xùn)練;語(yǔ)音情感識(shí)別模型微調(diào)模塊,利用少量標(biāo)注的音頻數(shù)據(jù),對(duì)語(yǔ)音情感識(shí)別模型進(jìn)行微調(diào);圖像特征抽取模塊,用于從輸入的視頻數(shù)據(jù)中,抽取圖像特征;圖像情感識(shí)別模型預(yù)訓(xùn)練模塊,利用海量無(wú)標(biāo)注的視頻數(shù)據(jù),對(duì)圖像情感識(shí)別模型進(jìn)行預(yù)訓(xùn)練;圖像情感識(shí)別模型微調(diào)模塊,利用少量標(biāo)注的視頻數(shù)據(jù),對(duì)圖像情感識(shí)別模型進(jìn)行微調(diào);多模態(tài)融合模塊,將微調(diào)后的語(yǔ)音情感識(shí)別模型和圖像情感識(shí)別模型進(jìn)行融合;情緒狀態(tài)預(yù)測(cè)模塊,利用多模態(tài)融合后的結(jié)果,預(yù)測(cè)個(gè)體的情緒狀態(tài)。
技術(shù)領(lǐng)域
本申請(qǐng)涉及情感識(shí)別領(lǐng)域,尤其涉及海量音視頻情感識(shí)別系統(tǒng)。
背景技術(shù)
情感識(shí)別技術(shù)不僅具有重大的科學(xué)意義,而且極具經(jīng)濟(jì)價(jià)值,有著廣泛的應(yīng)用前景。同時(shí),其應(yīng)用場(chǎng)景也不僅僅局限于人機(jī)交互領(lǐng)域,在其他諸多領(lǐng)域都可以發(fā)揮重要作用,例如對(duì)話生成、社會(huì)媒體分析和智能系統(tǒng)。
由于情感具有一定模糊性,不同人對(duì)于相同的內(nèi)容可能會(huì)有不同的感受。就像莎士比亞所說(shuō):“一千個(gè)觀眾眼中有一千個(gè)哈姆雷特”,每個(gè)人對(duì)待任何事物都有自己的看法。為了緩解情感的模糊性,在標(biāo)注過(guò)程中,我們常常需要邀請(qǐng)幾十位專(zhuān)業(yè)標(biāo)注人員,對(duì)情感數(shù)據(jù)進(jìn)行標(biāo)注,并選擇標(biāo)注結(jié)果的眾數(shù),作為最終的標(biāo)注結(jié)果。這就導(dǎo)致了情感標(biāo)注費(fèi)時(shí)費(fèi)力,很難收集大體量的標(biāo)注樣本。
申請(qǐng)公布號(hào)CN107609572涉及多模態(tài)情感計(jì)算領(lǐng)域,提出了一種基于神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的多模態(tài)情感識(shí)別方法、系統(tǒng),旨在解決情感數(shù)據(jù)難以獲取且標(biāo)注困難,使得相應(yīng)識(shí)別模型不能夠充分訓(xùn)練,造成多模態(tài)情感識(shí)別準(zhǔn)確率不能滿足需求的問(wèn)題,該方法基于大規(guī)模數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)并通過(guò)遷移學(xué)習(xí)獲取音頻特征提取器、視頻特征提取器,進(jìn)而對(duì)多模態(tài)情感數(shù)據(jù)進(jìn)行音頻特征、視頻特征的提取,從而識(shí)別各語(yǔ)音情感類(lèi)別的概率、各視頻情感類(lèi)別的概率,并通概率值判斷最終情感類(lèi)別。該方法可以有效的融合音視頻兩個(gè)模態(tài),提高了多模態(tài)情感識(shí)別的準(zhǔn)確率。
申請(qǐng)公布號(hào)CN 110852215 A一種多模態(tài)情感識(shí)別方法、系統(tǒng)及存儲(chǔ)介質(zhì),所述方法包括:響應(yīng)所監(jiān)聽(tīng)到的情感識(shí)別任務(wù)請(qǐng)求,采集音視頻數(shù)據(jù);從音視頻數(shù)據(jù)中提取視頻情感特征、音頻情感特征和語(yǔ)義情感特征;將視頻情感特征、音頻情感特征和語(yǔ)義情感特征進(jìn)行特征融合;依據(jù)融合情感特征進(jìn)行情感特征識(shí)別。所述系統(tǒng)包括CPU、FPGA和存儲(chǔ)單元;CPU能夠執(zhí)行前述方法步驟,F(xiàn)PGA能夠執(zhí)行前述方法中的特征提取及特征融合步驟;本發(fā)明依據(jù)視頻、音頻及語(yǔ)義情感特征融合結(jié)果進(jìn)行情感特征識(shí)別,能夠顯著提高情感識(shí)別的準(zhǔn)確率;將多模態(tài)情感特征提取算法同時(shí)嵌入CPU及FPGA,依據(jù)利用率選擇執(zhí)行設(shè)備,有助于提高算法運(yùn)行速度、降低延遲。
為了解決這一問(wèn)題,本發(fā)明提供了一種基于海量音視頻的情感識(shí)別系統(tǒng),通過(guò)引入海量無(wú)標(biāo)注的音視頻數(shù)據(jù),提升低資源情況下情感識(shí)別的性能。
發(fā)明內(nèi)容
為了解決上述技術(shù)問(wèn)題或者至少部分地解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N海量音視頻情感識(shí)別系統(tǒng),包括:
聲學(xué)特征抽取模塊、語(yǔ)音情感識(shí)別模型預(yù)訓(xùn)練模塊、語(yǔ)音情感識(shí)別模型微調(diào)模塊、圖像特征抽取模塊、圖像情感識(shí)別模型預(yù)訓(xùn)練模塊、圖像情感識(shí)別模型微調(diào)模塊、多模態(tài)融合模塊和情緒狀態(tài)預(yù)測(cè)模塊;所述聲學(xué)特征抽取模塊與所述語(yǔ)音情感識(shí)別模型預(yù)訓(xùn)練模塊連接,所述語(yǔ)音情感識(shí)別模型預(yù)訓(xùn)練模塊與所述語(yǔ)音情感識(shí)別模型微調(diào)模塊連接,所述圖像特征抽取模塊與所述圖像情感識(shí)別模型預(yù)訓(xùn)練模塊連接,所述圖像情感識(shí)別模型預(yù)訓(xùn)練模塊與所述圖像情感識(shí)別模型微調(diào)模塊連接,所述語(yǔ)音情感識(shí)別模型微調(diào)模塊和所述圖像情感識(shí)別模型微調(diào)模塊分別與所述多模態(tài)融合模塊連接,所述多模態(tài)融合模塊與所述情緒狀態(tài)預(yù)測(cè)模塊連接;
所述聲學(xué)特征抽取模塊:從輸入的音頻數(shù)據(jù)中抽取幀級(jí)別的聲學(xué)特征;
所述語(yǔ)音情感識(shí)別模型預(yù)訓(xùn)練模塊:以無(wú)標(biāo)注的所述幀級(jí)別的聲學(xué)特征和被掩蔽的無(wú)標(biāo)注的所述幀級(jí)別的聲學(xué)特征為輸入,預(yù)測(cè)完整的幀級(jí)別的聲學(xué)特征;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)科學(xué)院自動(dòng)化研究所,未經(jīng)中國(guó)科學(xué)院自動(dòng)化研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110253708.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種數(shù)據(jù)庫(kù)海量數(shù)據(jù)比對(duì)的方法
- 基于云計(jì)算的海量數(shù)據(jù)訪問(wèn)處理系統(tǒng)
- 一種實(shí)現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲(chǔ)方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實(shí)現(xiàn)海量數(shù)據(jù)準(zhǔn)實(shí)時(shí)全量統(tǒng)計(jì)的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點(diǎn)數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲(chǔ)方法
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





