[發(fā)明專利]一種基于異構(gòu)交互學(xué)習(xí)的跨媒體推理方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201911023636.7 | 申請(qǐng)日: | 2019-10-25 |
| 公開(公告)號(hào): | CN110879844B | 公開(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計(jì))人: | 彭宇新;黃鑫 | 申請(qǐng)(專利權(quán))人: | 北京大學(xué) |
| 主分類號(hào): | G06F16/435 | 分類號(hào): | G06F16/435;G06F16/45;G06V10/82;G06V10/774;G06N3/08;G06N5/04 |
| 代理公司: | 北京君尚知識(shí)產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 交互 學(xué)習(xí) 媒體 推理 方法 系統(tǒng) | ||
1.一種基于異構(gòu)交互學(xué)習(xí)的跨媒體推理方法,包括以下步驟:
建立跨媒體蘊(yùn)涵推理數(shù)據(jù)集,其中前提包括兩種不同媒體類型,結(jié)論包括一種媒體類型;
利用跨媒體蘊(yùn)涵推理數(shù)據(jù)集訓(xùn)練異構(gòu)交互學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),包括跨媒體交互注意力學(xué)習(xí)和異構(gòu)張量空間構(gòu)建;
利用訓(xùn)練好的異構(gòu)交互學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行推理,判斷給定前提和結(jié)論的蘊(yùn)涵關(guān)系;
所述跨媒體交互注意力學(xué)習(xí)同時(shí)發(fā)生在文本和文本、文本和圖像之間,目標(biāo)是在前提和結(jié)論之間進(jìn)行交叉編碼,強(qiáng)調(diào)跨媒體的語義關(guān)聯(lián);
設(shè)圖像區(qū)域數(shù)量為v,文本單詞數(shù)量為w,則圖像前提P(I)n的局部特征為文本結(jié)論hn的局部特征為所述跨媒體交互注意力表示為一個(gè)v×w的矩陣,每個(gè)元素為其中,符號(hào)表示向量按對(duì)應(yīng)元素相乘,表示一個(gè)輸出維度為1的全連接層,以x為輸入,θ表示網(wǎng)絡(luò)參數(shù);根據(jù)交互注意力,得到圖像前提P(I)n的第i個(gè)局部特征的交叉編碼如下:
同樣地,按照上述方法計(jì)算得到文本前提、文本結(jié)論的交叉編碼與
2.如權(quán)利要求1所述的方法,其特征在于,所述前提的媒體類型為文本和圖像;所述結(jié)論的媒體類型為文本;所述跨媒體蘊(yùn)涵推理數(shù)據(jù)集中的第n組數(shù)據(jù)由文本前提P(I)n、圖像前提P(T)n以及文本結(jié)論hn構(gòu)成,且具有蘊(yùn)涵關(guān)系標(biāo)注en。
3.如權(quán)利要求1所述的方法,所述異構(gòu)交互學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)包括兩個(gè)主要部分:跨媒體交互注意力學(xué)習(xí)和異構(gòu)張量空間構(gòu)建;首先對(duì)圖像、文本生成細(xì)粒度的表示,再在一個(gè)異構(gòu)張量空間中同時(shí)挖掘圖像前提、文本前提和結(jié)論的蘊(yùn)涵關(guān)系,實(shí)現(xiàn)蘊(yùn)涵推理。
4.如權(quán)利要求3所述的方法,其特征在于,所述異構(gòu)張量空間構(gòu)建的目標(biāo)是,在同一個(gè)張量空間中表達(dá)不同媒體類型的前提與結(jié)論的推理線索。
5.如權(quán)利要求4所述的方法,其特征在于,對(duì)于所述異構(gòu)交互學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的圖像前提與文本結(jié)論分支,所述異構(gòu)張量空間構(gòu)建所需的輸入如下:
其中,為圖像前提P(I)n的第i個(gè)局部特征;為文本結(jié)論hn的第i個(gè)局部特征;為圖像前提的交叉編碼;為文本結(jié)論的交叉編碼;符號(hào)表示向量按對(duì)應(yīng)元素相乘,表示一個(gè)輸出維度為1的全連接層,以x為輸入,θ表示網(wǎng)絡(luò)參數(shù);符號(hào)“;”表示向量的拼接;然后,得到圖像前提與文本結(jié)論分支的張量:
同樣地,得到文本前提與文本結(jié)論分支的張量Tensor(TT),并據(jù)此得到最終的異構(gòu)張量空間Tensor(HT)=[Tensor(IT);Tensor(TT)];接著,使用卷積神經(jīng)網(wǎng)絡(luò)模型,以異構(gòu)張量Tensor(HT)為輸入,通過分類器進(jìn)行蘊(yùn)涵關(guān)系的概率推斷,概率最大者為推理結(jié)果。
6.如權(quán)利要求1所述的方法,其特征在于,所述利用訓(xùn)練好的異構(gòu)交互學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行推理是指,將圖像前提、文本前提、文本結(jié)論同時(shí)輸入到異構(gòu)交互學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)中,網(wǎng)絡(luò)最終對(duì)于蘊(yùn)涵、矛盾、無關(guān)三種情況分別得到一個(gè)概率值,并取概率值最大的一項(xiàng)為推理結(jié)果。
7.一種采用權(quán)利要求1~6中任一項(xiàng)所述方法的基于異構(gòu)交互學(xué)習(xí)的跨媒體推理系統(tǒng),其特征在于,包括:
數(shù)據(jù)集建立模塊,負(fù)責(zé)建立跨媒體蘊(yùn)涵推理數(shù)據(jù)集,其中前提包括兩種不同媒體類型,結(jié)論包括一種媒體類型;
網(wǎng)絡(luò)訓(xùn)練模塊,負(fù)責(zé)利用跨媒體蘊(yùn)涵推理數(shù)據(jù)集訓(xùn)練異構(gòu)交互學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),包括跨媒體交互注意力學(xué)習(xí)和異構(gòu)張量空間構(gòu)建;
推理模塊,負(fù)責(zé)利用訓(xùn)練好的異構(gòu)交互學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行推理,判斷給定前提和結(jié)論的蘊(yùn)涵關(guān)系。
8.一種計(jì)算機(jī),其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被配置為由所述處理器執(zhí)行,所述計(jì)算機(jī)程序包括用于執(zhí)行權(quán)利要求1~6中任一權(quán)利要求所述方法中各步驟的指令。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911023636.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)





