[發(fā)明專利]應(yīng)用于跨模態(tài)數(shù)據(jù)檢索領(lǐng)域的樣本選擇方法及裝置有效
| 申請?zhí)枺?/td> | 201710069595.X | 申請日: | 2017-02-08 |
| 公開(公告)號: | CN108399414B | 公開(公告)日: | 2021-06-01 |
| 發(fā)明(設(shè)計)人: | 黃圣君;高能能;袁坤;陳偉;王迪 | 申請(專利權(quán))人: | 南京航空航天大學(xué);騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 朱雅男 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 應(yīng)用于 跨模態(tài) 數(shù)據(jù) 檢索 領(lǐng)域 樣本 選擇 方法 裝置 | ||
一種樣本選擇方法及裝置,屬于度量學(xué)習(xí)技術(shù)領(lǐng)域。所述方法包括:從未標(biāo)注樣本集中選取n組樣本對,每一組樣本對包括兩個樣本,每一個樣本包括p種模態(tài)的數(shù)據(jù);對于每一組樣本對,計算樣本對包括的一個樣本的每一種模態(tài)的數(shù)據(jù)和另一個樣本的每一種模態(tài)的數(shù)據(jù)之間的部分相似度,得到p×p個部分相似度;根據(jù)p×p個部分相似度計算樣本對包括的兩個樣本之間的整體相似度;獲取p×p個部分相似度與整體相似度之間的差異程度;從n組樣本對中選擇符合預(yù)設(shè)條件的樣本對作為訓(xùn)練樣本。本發(fā)明通過選擇高質(zhì)量的訓(xùn)練樣本訓(xùn)練度量模型,能夠用更少的訓(xùn)練樣本訓(xùn)練出更高精度的度量模型。
技術(shù)領(lǐng)域
本發(fā)明涉及度量學(xué)習(xí)技術(shù)領(lǐng)域,特別涉及一種應(yīng)用于跨模態(tài)數(shù)據(jù)檢索領(lǐng)域的樣本選擇方法及裝置。
背景技術(shù)
度量學(xué)習(xí)(metric learning)是指從已標(biāo)注相關(guān)性的樣本對中自動學(xué)習(xí)出合理描述兩個對象之間的語義相似度的距離度量,是圖像檢索領(lǐng)域中常用的一種機(jī)器學(xué)習(xí)技術(shù)。
目前,已經(jīng)有一些較為成熟的有關(guān)度量學(xué)習(xí)的技術(shù),但這些技術(shù)大多是針對單模態(tài)數(shù)據(jù)(如圖像和圖像)之間的相關(guān)性度量,并不適用于跨模態(tài)數(shù)據(jù)(如圖像和文本)之間的相關(guān)性度量。針對跨模態(tài)數(shù)據(jù)的度量學(xué)習(xí),在現(xiàn)有技術(shù)中,預(yù)先構(gòu)建訓(xùn)練樣本集,該訓(xùn)練樣本集中包括大量的訓(xùn)練樣本,每一個訓(xùn)練樣本包括一組已標(biāo)注相關(guān)性的樣本對,而后采用該訓(xùn)練樣本集訓(xùn)練度量模型,該度量模型用于度量一組跨模態(tài)數(shù)據(jù)之間的相關(guān)性。訓(xùn)練樣本集的構(gòu)建方式通常采用隨機(jī)抽樣方式從未標(biāo)注樣本集中選取樣本對作為訓(xùn)練樣本,并將選取的訓(xùn)練樣本交由標(biāo)注人員進(jìn)行相關(guān)性標(biāo)注。
在現(xiàn)有技術(shù)中,采用隨機(jī)抽樣方式選取的訓(xùn)練樣本質(zhì)量偏低,導(dǎo)致最終訓(xùn)練得到的度量模型的準(zhǔn)確性較低。并且,由于需要大量已標(biāo)注相關(guān)性的訓(xùn)練樣本來訓(xùn)練度量模型,導(dǎo)致模型的訓(xùn)練效率較低,且對訓(xùn)練樣本的標(biāo)注需要耗費較多的時間和成本。
發(fā)明內(nèi)容
本發(fā)明實施例提供了一種應(yīng)用于跨模態(tài)數(shù)據(jù)檢索領(lǐng)域的樣本選擇方法及裝置,用以解決現(xiàn)有技術(shù)在針對跨模態(tài)數(shù)據(jù)的度量學(xué)習(xí)中,所存在的模型的準(zhǔn)確性較低,模型的訓(xùn)練效率較低,以及對訓(xùn)練樣本的標(biāo)注需要耗費較多的時間和成本的問題。所述技術(shù)方案如下:
第一方面,提供了一種應(yīng)用于跨模態(tài)數(shù)據(jù)檢索領(lǐng)域的樣本選擇方法,所述方法包括:
從未標(biāo)注樣本集中選取n組樣本對,每一組樣本對包括兩個樣本,每一個樣本包括p種模態(tài)的數(shù)據(jù),所述n為正整數(shù),所述p為大于1的整數(shù);
對于所述n組樣本對中的每一組樣本對,計算所述樣本對包括的一個樣本的每一種模態(tài)的數(shù)據(jù)和另一個樣本的每一種模態(tài)的數(shù)據(jù)之間的部分相似度,得到p×p個部分相似度;
根據(jù)所述p×p個部分相似度計算所述樣本對包括的兩個樣本之間的整體相似度;
獲取所述p×p個部分相似度與所述整體相似度之間的差異程度;
從所述n組樣本對中符合預(yù)設(shè)條件的樣本對中選擇訓(xùn)練樣本;其中,所述預(yù)設(shè)條件滿足所述差異程度大于第一閾值且所述整體相似度小于第二閾值。
第二方面,提供了一種應(yīng)用于跨模態(tài)數(shù)據(jù)檢索領(lǐng)域的樣本選擇裝置,所述裝置包括:
選取模塊,用于從未標(biāo)注樣本集中選取n組樣本對,每一組樣本對包括兩個樣本,每一個樣本包括p種模態(tài)的數(shù)據(jù),所述n為正整數(shù),所述p為大于1的整數(shù);
第一計算模塊,用于對于所述n組樣本對中的每一組樣本對,計算所述樣本對包括的一個樣本的每一種模態(tài)的數(shù)據(jù)和另一個樣本的每一種模態(tài)的數(shù)據(jù)之間的部分相似度,得到p×p個部分相似度;
第二計算模塊,用于根據(jù)所述p×p個部分相似度計算所述樣本對包括的兩個樣本之間的整體相似度;
第三計算模塊,用于獲取所述p×p個部分相似度與所述整體相似度之間的差異程度;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京航空航天大學(xué);騰訊科技(深圳)有限公司,未經(jīng)南京航空航天大學(xué);騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710069595.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種基于特定模態(tài)語義空間建模的跨模態(tài)相似性學(xué)習(xí)方法
- 一種跨模態(tài)信息檢索方法、裝置和存儲介質(zhì)
- 基于解糾纏表達(dá)學(xué)習(xí)的跨模態(tài)生物特征匹配方法及系統(tǒng)
- 基于跨模態(tài)行人重識別方法及裝置
- 跨模態(tài)人臉識別的方法、裝置、設(shè)備和存儲介質(zhì)
- 跨模態(tài)檢索模型的訓(xùn)練方法、裝置、設(shè)備和存儲介質(zhì)
- 一種基于多模態(tài)注意力機(jī)制的跨模態(tài)哈希方法及系統(tǒng)
- 跨模態(tài)檢索方法、裝置、電子設(shè)備及存儲介質(zhì)
- 基于有監(jiān)督對比的跨模態(tài)檢索方法、系統(tǒng)及設(shè)備
- 一種生成跨模態(tài)的表示向量的方法以及跨模態(tài)推薦方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





