[發(fā)明專利]一種基于異構(gòu)交互學(xué)習(xí)的跨媒體推理方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911023636.7 | 申請日: | 2019-10-25 |
| 公開(公告)號: | CN110879844B | 公開(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計(jì))人: | 彭宇新;黃鑫 | 申請(專利權(quán))人: | 北京大學(xué) |
| 主分類號: | G06F16/435 | 分類號: | G06F16/435;G06F16/45;G06V10/82;G06V10/774;G06N3/08;G06N5/04 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 交互 學(xué)習(xí) 媒體 推理 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于異構(gòu)交互學(xué)習(xí)的跨媒體推理方法和系統(tǒng)。該方法包括以下步驟:1.建立跨媒體蘊(yùn)涵推理數(shù)據(jù)集,其中前提包括兩種不同媒體類型,結(jié)論包括一種媒體類型。2.利用跨媒體蘊(yùn)涵推理數(shù)據(jù)集訓(xùn)練異構(gòu)交互學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),主要包括跨媒體交互注意力學(xué)習(xí)和異構(gòu)張量空間構(gòu)建。3.利用訓(xùn)練好的異構(gòu)交互學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行推理,判斷給定前提和結(jié)論的蘊(yùn)涵關(guān)系。與現(xiàn)有方法相比,本發(fā)明能夠?qū)崿F(xiàn)基于不同媒體前提的蘊(yùn)涵推理,并提高蘊(yùn)涵推理的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及多媒體分析領(lǐng)域,具體涉及一種基于異構(gòu)交互學(xué)習(xí)的跨媒體推理方法和系統(tǒng)。
背景技術(shù)
推理是人類認(rèn)知外部世界的關(guān)鍵能力,而蘊(yùn)涵推理則是一種重要的基本推理形式。蘊(yùn)涵推理是指依據(jù)給定的前提P,判斷結(jié)論H是否成立。它在語義檢索、智能問答等應(yīng)用中具有廣泛的應(yīng)用價(jià)值。現(xiàn)有的蘊(yùn)涵推理方法聚焦于文本,即前提和結(jié)論都是一段文本的情況,重點(diǎn)在于判斷前提和結(jié)論的文本相似性。然而,人類的知識與推理過程往往有視覺、語言等感官的共同參與,僅僅依靠文本的推理形式大大限制了推理的廣度與深度。因此,如何將現(xiàn)有文本為主的推理形式,拓展到多種媒體共同參與的跨媒體推理,成為了研究與應(yīng)用的關(guān)鍵問題。
相關(guān)技術(shù)主要包括文本蘊(yùn)涵推理和跨媒體分析兩類。在文本蘊(yùn)涵推理上,目標(biāo)是根據(jù)給定的前提P,判斷結(jié)論H的三種情況:一定成立(蘊(yùn)涵)、一定不成立(矛盾)、無法判斷(無關(guān))。作為自然語言處理的一種基本任務(wù),文本蘊(yùn)涵推理受到了研究者的廣泛關(guān)注。如Mirkin等人在文獻(xiàn)“Source-Language Entailment Modeling for Translating UnknownTerms”中提出一種基于推理規(guī)則的方法,能夠通過已知的文本規(guī)則嘗試從前提到結(jié)論的變換。涉及的規(guī)則包括包含關(guān)系(如狗→動物)與因果關(guān)系(如buy→own)等。如果前提能夠通過規(guī)則變換得到結(jié)論,則說明前提與結(jié)論存在蘊(yùn)涵關(guān)系。Bowman等人在文獻(xiàn)“l(fā)argeannotated corpus for learning natural language inference”中提出一種基于深度網(wǎng)絡(luò)的方法,使用兩個(gè)獨(dú)立的循環(huán)神經(jīng)網(wǎng)絡(luò)模型提取前提與結(jié)論的文本特征,再通過若干全連接層判斷蘊(yùn)涵關(guān)系。然而,這些方法都是以文本前提和文本結(jié)論作為輸入,因此只能進(jìn)行文本蘊(yùn)涵關(guān)系的推理。這大大限制了推理的深度與廣度。
在跨媒體分析上,現(xiàn)有的研究重點(diǎn)在于檢索任務(wù)。主流的方法是統(tǒng)一表征學(xué)習(xí),即將圖像、文本等不同媒體映射到同一個(gè)語義空間中,使得它們的表征能夠進(jìn)行相似性度量。如Rasiwasia等人在文獻(xiàn)“A New Approach to Cross-Modal Multimedia Retrieval”中提出了高層語義映射方法,先使用典型相關(guān)分析方法將圖像和文本映射到同一空間中,再根據(jù)數(shù)據(jù)的類別標(biāo)注,利用邏輯回歸方法對其進(jìn)行語義學(xué)習(xí)。Ngiam在文獻(xiàn)“Multimodal DeepLearning”中提出多模態(tài)自編碼器方法,用兩個(gè)自編碼器同時(shí)接受兩種媒體的輸入,利用重構(gòu)誤差最小化原則進(jìn)行訓(xùn)練。這兩個(gè)自編碼器有一個(gè)共享的編碼層,從而能夠?qū)W習(xí)不同媒體的關(guān)聯(lián)關(guān)系。然而,這些方法都是針對檢索任務(wù),重點(diǎn)在于判斷不同媒體數(shù)據(jù)的相似性,無法支持蘊(yùn)涵推理任務(wù)。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種基于異構(gòu)交互學(xué)習(xí)的跨媒體推理方法和系統(tǒng),能夠綜合考慮兩種不同媒體數(shù)據(jù)的前提,判斷結(jié)論是否成立。通過跨媒體交互注意力學(xué)習(xí)和異構(gòu)張量空間構(gòu)建,能夠充分挖掘互補(bǔ)的跨媒體細(xì)粒度線索,實(shí)現(xiàn)綜合推理。
為達(dá)到以上目的,本發(fā)明采用的技術(shù)方案如下:
一種基于異構(gòu)交互學(xué)習(xí)的跨媒體推理方法,用于對不同媒體中包含的推理線索進(jìn)行全面分析,判斷結(jié)論成立的可能性,從而實(shí)現(xiàn)跨媒體蘊(yùn)涵推理。包括以下步驟:
(1)建立跨媒體蘊(yùn)涵推理數(shù)據(jù)集,其中前提包括兩種不同媒體類型,結(jié)論包括一種媒體類型;
(2)利用跨媒體蘊(yùn)涵推理數(shù)據(jù)集訓(xùn)練異構(gòu)交互學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),主要包括跨媒體交互注意力學(xué)習(xí)和異構(gòu)張量空間構(gòu)建;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911023636.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





