[發(fā)明專(zhuān)利]一種基于點(diǎn)擊與視覺(jué)融合的弱監(jiān)督雙線性深度學(xué)習(xí)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710059373.X | 申請(qǐng)日: | 2017-01-24 |
| 公開(kāi)(公告)號(hào): | CN106919951B | 公開(kāi)(公告)日: | 2020-04-21 |
| 發(fā)明(設(shè)計(jì))人: | 俞俊;譚敏;鄭光劍 | 申請(qǐng)(專(zhuān)利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62;G06F16/583 |
| 代理公司: | 杭州君度專(zhuān)利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 杜軍 |
| 地址: | 310018 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 點(diǎn)擊 視覺(jué) 融合 監(jiān)督 雙線 深度 學(xué)習(xí)方法 | ||
1.一種基于點(diǎn)擊與視覺(jué)融合的弱監(jiān)督雙線性深度學(xué)習(xí)方法,其特征在于包括如下步驟:
步驟(1)、點(diǎn)擊數(shù)據(jù)預(yù)處理:
從點(diǎn)擊數(shù)據(jù)集中提取每幅圖像的文本構(gòu)成的點(diǎn)擊特征,并通過(guò)合并語(yǔ)義相近的文本,在合并后的文本空間下構(gòu)建新的低維緊湊的點(diǎn)擊特征;
步驟(2)、點(diǎn)擊與視覺(jué)特征融合的深度模型構(gòu)建:
對(duì)樣本基于可靠性加權(quán),構(gòu)建一個(gè)帶權(quán)重的三通道深度神經(jīng)網(wǎng)絡(luò)模型,其中兩個(gè)通道提取圖像視覺(jué)特征,第三通道處理步驟(1)的點(diǎn)擊特征;將視覺(jué)與點(diǎn)擊特征通過(guò)特征連接層進(jìn)行融合;
步驟(3)、BP學(xué)習(xí)模型參數(shù):
通過(guò)反向傳播算法對(duì)步驟(2)中神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)模型參數(shù)進(jìn)行訓(xùn)練,直至整個(gè)網(wǎng)絡(luò)模型收斂;
步驟(4)、學(xué)習(xí)樣本可靠性:
根據(jù)步驟(2)的神經(jīng)網(wǎng)絡(luò)模型,計(jì)算每一個(gè)訓(xùn)練樣本的模型預(yù)測(cè)損失,并構(gòu)造樣本集的相似度矩陣,同時(shí)利用樣本損失和相似度矩陣學(xué)習(xí)樣本可靠性,利用可靠性給樣本加權(quán);
步驟(5)、模型訓(xùn)練:
重復(fù)步驟(3)和(4),迭代地優(yōu)化神經(jīng)網(wǎng)絡(luò)模型和樣本權(quán)重,從而訓(xùn)練整個(gè)網(wǎng)絡(luò)模型直到收斂;
步驟(1)所述的從點(diǎn)擊數(shù)據(jù)集中提取出圖像對(duì)應(yīng)的點(diǎn)擊特征并將其按語(yǔ)義聚類(lèi)合并,具體如下:
1-1.從點(diǎn)擊數(shù)據(jù)集中提取出圖像i對(duì)應(yīng)的文本構(gòu)成點(diǎn)擊特征其具體公式如下:
其中ci,j是圖像i和文本j對(duì)應(yīng)的點(diǎn)擊量;
1-2.為了得到短而緊湊的特征向量,對(duì)點(diǎn)擊特征降維從而減小計(jì)算量并解決文本語(yǔ)義重復(fù)問(wèn)題,利用了K均值聚類(lèi)的方法間接的對(duì)文本進(jìn)行聚類(lèi),從而得到了一個(gè)文本聚類(lèi)的索引并將同一類(lèi)的文本的點(diǎn)擊量相加,得到新的點(diǎn)擊特征ui,具體如公式2所示:
其中表示第j個(gè)文本類(lèi);
步驟(2)所述的構(gòu)建一個(gè)點(diǎn)擊與視覺(jué)特征融合的深度模型,將視覺(jué)特征和點(diǎn)擊特征連接在一起,具體如下:
2-1.構(gòu)建一個(gè)三通道的網(wǎng)絡(luò)框架結(jié)構(gòu)W-C-BCNN,其中前兩通道采用雙線性卷積神經(jīng)網(wǎng)絡(luò)提取圖像的視覺(jué)特征zi,第三通道提取步驟(1)中得到的對(duì)應(yīng)圖像的點(diǎn)擊特征ui;然后將提取的視覺(jué)特征和點(diǎn)擊特征通過(guò)連接層拼接起來(lái),輸出一個(gè)同時(shí)具有視覺(jué)和語(yǔ)義表達(dá)能力的特征oi,具體如公式3所示:
oi=(zi,μui)=(zi,1,zi,2,…,μui,1,μui,2,…) (公式3)
其中μ表示權(quán)重參數(shù);
2-2.給定n個(gè)訓(xùn)練數(shù)據(jù)其中yi∈[1,2,...,N]表示每個(gè)數(shù)據(jù)的類(lèi)別標(biāo)簽,通過(guò)解決弱監(jiān)督雙線性深度學(xué)習(xí)問(wèn)題得到網(wǎng)絡(luò)模型參數(shù)θ和樣本可靠性變量w*,從而訓(xùn)練整個(gè)網(wǎng)絡(luò)模型直至收斂,具體如公式4所示:
其中,權(quán)重w*表示優(yōu)化后得到訓(xùn)練樣本可靠性,w表示優(yōu)化前的權(quán)重,特別地,當(dāng)權(quán)重始終為1時(shí),稱(chēng)該網(wǎng)絡(luò)框架為C-BCNN,由于權(quán)重是在不斷迭代優(yōu)化中學(xué)習(xí)得到的,所以稱(chēng)之為弱監(jiān)督學(xué)習(xí)問(wèn)題;P(w)為權(quán)重先驗(yàn)項(xiàng),是基于點(diǎn)擊數(shù)據(jù)的點(diǎn)擊量來(lái)建模估計(jì)的,具體如公式5所示:
其中是歸一化后的點(diǎn)擊向量;T(·)是一種尺度變換的目標(biāo)函數(shù),控制wc尺度范圍的對(duì)數(shù)變換函數(shù),用于處理圖片的點(diǎn)擊數(shù)不平衡的情況;S(G,w)為平滑項(xiàng),是根據(jù)圖像視覺(jué)的一致性的假設(shè),從而對(duì)圖像進(jìn)行正則化處理,具體如公式6所示:
其中g(shù)i,j表示樣本相似度矩陣G中的值,該深度模型是利用視覺(jué)特征z的相似度來(lái)計(jì)算和構(gòu)建的。
2.根據(jù)權(quán)利要求1所述的一種基于點(diǎn)擊與視覺(jué)融合的弱監(jiān)督雙線性深度學(xué)習(xí)方法,其特征在于步驟(3)所述的利用反向傳播算法訓(xùn)練網(wǎng)絡(luò)模型參數(shù)直至收斂,具體如下:
3-1利用反向傳播算法訓(xùn)練得到模型參數(shù)θ,讓dl/dx作為損失函數(shù)對(duì)輸入的梯度,則根據(jù)鏈?zhǔn)椒▌t可以得到關(guān)于兩個(gè)深度網(wǎng)絡(luò)A和B的反向傳播公式,具體如公式7所示:
其中,
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710059373.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





