[發(fā)明專利]一種社交策展網(wǎng)絡(luò)上采集(Pin)的多模態(tài)表示方法在審
| 申請?zhí)枺?/td> | 201810505633.6 | 申請日: | 2018-05-24 |
| 公開(公告)號: | CN108876643A | 公開(公告)日: | 2018-11-23 |
| 發(fā)明(設(shè)計(jì))人: | 毋立芳;張岱;楊博文;簡萌;劉海英;祁銘超;賈婷 | 申請(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號: | G06Q50/00 | 分類號: | G06Q50/00;G06N3/04 |
| 代理公司: | 北京思海天達(dá)知識產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 多模態(tài) 采集 文本表示 詞向量 模態(tài) 預(yù)處理 激活 卷積神經(jīng)網(wǎng)絡(luò) 圖像數(shù)據(jù)集 前向傳播 數(shù)據(jù)融合 圖像表示 圖像裁剪 圖像縮放 智能媒體 自動標(biāo)注 大數(shù)據(jù) 語料庫 中間層 頂層 映射 池化 推斷 網(wǎng)絡(luò) 文本 聯(lián)合 圖像 概率 圖片 分析 統(tǒng)一 | ||
1.一種社交策展網(wǎng)絡(luò)上采集(Pin)的多模態(tài)表示方法,其特征在于,包括以下步驟:
對于給定采集,圖像經(jīng)圖像縮放、圖像裁剪預(yù)處理后;輸入到一個在自動標(biāo)注的圖像數(shù)據(jù)集上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)CNN中,CNN的前向傳播完成后,提取全連接層2激活值作為圖像表示;采集描述中的每個詞由一個在語料庫上完成訓(xùn)練的word2vec映射為詞向量,所有詞向量經(jīng)池化后得到文本表示;圖像及文本表示兩種模態(tài)的表示一同輸入到一個完成訓(xùn)練的多模態(tài)深度玻爾茲曼機(jī)DBM中,推斷的頂層激活概率將作為采集的多模態(tài)聯(lián)合表示;
CNN包括5個卷積層和3個全連接層,結(jié)構(gòu)如下:
卷積層1:輸入227*227*3,卷積核11*11*3
卷積層2:輸入27*27*96,卷積核5*5*48
卷積層3:輸入13*13*256,卷積核3*3*256
卷積層4:輸入13*13*384,卷積核3*3*192
卷積層5:輸入13*13*384,卷積核3*3*192
全連接層1:輸入6*6*256,輸出4096
全連接層2:輸入4096輸出4096
全連接層3:輸入4096輸出33。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,多模態(tài)聯(lián)合表示具體為:
多模態(tài)DBM的結(jié)構(gòu)為在兩個兩層的DBM頂部添加一個共享的隱藏層,除了兩個可見層,全部隱藏層均由二值單元構(gòu)成;每個DBM視為由兩個受限玻爾茲曼機(jī)層RBM疊相連而成;
給定可見層V=(vi)∈{0,1}D,其中vi為層中第i個可見單元,D為層中可見單元的總數(shù);給定隱藏層H=(hj)∈{0,1}F,其中hj為第j個隱藏單元,F(xiàn)為層中隱藏單元的總數(shù);可見層及隱藏層共同定義了RBM的能量函數(shù)
其中為模型參數(shù),為實(shí)數(shù)集,wij為第i個可見單元與第j個隱藏單元間的對稱交互項(xiàng),ai、bj分別為第i個可見單元和第j個隱藏單元的偏置項(xiàng);兩層的聯(lián)合分布服從玻爾茲曼分布,定義為
其中后一因子為勢函數(shù),exp(x)=ex為自然常數(shù)為底的指數(shù)函數(shù),Z(θ)為配分函數(shù),又稱歸一化常數(shù),由兩層全部狀態(tài)計(jì)算得到
實(shí)際上聯(lián)合分布相當(dāng)于求取柔性最大;由于層內(nèi)單元是條件獨(dú)立的,由聯(lián)合分布得到條件分布并因式分解后得到隱藏層的激活概率
其中sigmoid(x)=1/(1+e-x)為S型函數(shù),看出激活概率表達(dá)式與激活函數(shù)為S型函數(shù)的神經(jīng)網(wǎng)絡(luò)神經(jīng)元相同;可見層的激活概率求解和表達(dá)式也一樣;RBM的參數(shù)優(yōu)化目標(biāo)是最大化對數(shù)似然函數(shù),其實(shí)質(zhì)是使當(dāng)前輸入分布的概率最大,對數(shù)似然函數(shù)的導(dǎo)數(shù)為數(shù)據(jù)相關(guān)分布期望與模型分布期望的差,解釋為可見層激活概率與輸入誤差最小;
由可見層及隱藏層定義了Gaussian-Bernoulli RBM的能量函數(shù)為
其中為模型參數(shù),σi為第i個可見單元的標(biāo)準(zhǔn)差;其聯(lián)合分布定義不變,配分函數(shù)改為
隱藏層的激活概率求解不變,可見層的激活概率改為
其中是期望為方差為的正態(tài)分布,σi為第i個可見單元的標(biāo)準(zhǔn)差,wij為第i個可見單元與第j個隱藏單元間的對稱交互項(xiàng),hj為第j個隱藏單元,ai為第i個可見單元的偏置項(xiàng);
多模態(tài)DBM的聯(lián)合分布為
其中θ為全部模型參數(shù),包括層間的對稱交互項(xiàng)、每層的偏置項(xiàng)及可見層的方差;VI、HI1、HI2分別為圖像通路的可見層、第一隱藏層、第二隱藏層,VT、HT1、HT2分別為文本通路的可見層、第一隱藏層、第二隱藏層,H3為頂部隱藏層。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810505633.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q50-00 專門適用于特定經(jīng)營部門的系統(tǒng)或方法,例如公用事業(yè)或旅游
G06Q50-02 .農(nóng)業(yè);漁業(yè);礦業(yè)
G06Q50-04 .制造業(yè)
G06Q50-06 .電力、天然氣或水供應(yīng)
G06Q50-08 .建筑
G06Q50-10 .服務(wù)
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





