[發(fā)明專利]基于預訓練模型和召回排序的跨模態(tài)檢索系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 202111229288.6 | 申請日: | 2021-10-21 |
| 公開(公告)號: | CN114419387A | 公開(公告)日: | 2022-04-29 |
| 發(fā)明(設(shè)計)人: | 歐中洪;田子敬;史明昊;羅中李;宋美娜;鐘茂華;梁昊光 | 申請(專利權(quán))人: | 北京郵電大學 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06K9/62;G06N20/00 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務所(普通合伙) 11201 | 代理人: | 羅嵐 |
| 地址: | 100876 北京市海淀區(qū)西*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 訓練 模型 召回 排序 跨模態(tài) 檢索系統(tǒng) 方法 | ||
本發(fā)明提出一種基于預訓練模型和召回排序的跨模態(tài)檢索系統(tǒng)及方法,其中,該系統(tǒng)包括:多維度文本信息提取模塊,用于為所述跨模態(tài)檢索系統(tǒng)提供文本側(cè)的信息支持,通過不同維度擴大文本信息的語義表示,增加文本樣本量;智能圖像檢索模塊,用于視頻智能抽幀模塊和以圖搜圖模塊,其中,視頻智能抽幀模塊用于從一段視頻中抽取出最能代表視頻內(nèi)容的若干張圖片,以圖搜圖模塊用于完成大規(guī)模高效率的圖片檢索任務;跨模態(tài)檢索模塊,用于根據(jù)查詢項生成大致相關(guān)地候選集,對所述候選集進行精確排序,最終返回相關(guān)地檢索結(jié)果。該系統(tǒng)用于降低信息管理成本、提升信息搜索精度和效率,支撐大型賽事咨詢和新聞搜索的多模態(tài)自動化信息檢索。
技術(shù)領(lǐng)域
本發(fā)明屬于人工智能領(lǐng)域。
背景技術(shù)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)中的信息不再以單一的文本形式呈現(xiàn),而是朝著多元化的方向發(fā)展。如今,網(wǎng)絡(luò)上除了包含海量文本數(shù)據(jù)外,還有不亞于文本數(shù)量的圖像、視頻、音頻等多個模態(tài)的數(shù)據(jù)。面對高速發(fā)展的互聯(lián)網(wǎng)產(chǎn)業(yè)產(chǎn)生的海量數(shù)據(jù),如何根據(jù)用戶意愿在不同模態(tài)數(shù)據(jù)間快速、有效地檢索出相關(guān)信息具有很大實用價值。目前主流的多模態(tài)檢索技術(shù)主要可分為兩種,一是基于匹配函數(shù)學習的交叉編碼器模型,其主要思想是圖文特征先融合,然后再經(jīng)過隱層(神經(jīng)網(wǎng)絡(luò)),讓隱層學習出跨模態(tài)距離函數(shù),最終得到圖文關(guān)系得分。該模型主要關(guān)注細粒度注意力和交叉特征,其結(jié)構(gòu)如圖3;二是基于表示學習的向量嵌入模型,其主要思想是圖文特征分別計算得到最終頂層的嵌入,然后用可解釋的距離函數(shù)(余弦函數(shù)、L2函數(shù)等)來約束圖文關(guān)系,該模型更關(guān)注兩種不同模態(tài)的信號在同一映射空間中的表示方法,其結(jié)構(gòu)如圖4。
一般而言,交叉編碼器模型的模型效果優(yōu)于向量嵌入模型,因為圖文特征組合后可為模型隱層提供更多的交叉特征信息,但交叉編碼器模型的主要問題在于無法使用頂層嵌入來獨立表示圖像和文本的輸入信號。在一個N張圖片M條文本輸入的檢索召回場景下,需要N*M個組合輸入到該模型才能得到以圖搜文或以文搜圖的結(jié)果;此外,在線使用時,計算性能也是很大瓶頸,特征組合后隱層需要在線計算;由于交叉組合量非常大,無法提前存儲圖文信號的嵌入向量使用緩存進行計算。因此,交叉編碼器模型雖然效果好,但并不是實際應用的主流。
向量嵌入模型結(jié)構(gòu)是當前的主流檢索結(jié)構(gòu),由于把圖片和文本兩個不同模態(tài)的信號分開,可以在離線階段分別計算出各自的頂層嵌入;存儲嵌入后在線使用時,只需計算兩個模態(tài)向量的距離即可。如果是樣本對的相關(guān)性過濾,則只需計算兩個向量的余弦/歐氏距離;如果是在線檢索召回,則需提前將一個模態(tài)的嵌入集合構(gòu)建成檢索空間,使用最近鄰檢索算法(如ANN等算法)搜索。向量嵌入模型的核心是得到高質(zhì)量的嵌入。然而,向量嵌入模型雖然簡潔有效、應用廣泛,但其缺點也很明顯。從模型結(jié)構(gòu)可看出,不同模態(tài)的信號基本沒有交互,因此很難學習出高質(zhì)量代表信號語義的嵌入,對應的度量空間/距離準確性也有待提升。
本提案針對目前互聯(lián)網(wǎng)中數(shù)據(jù)動態(tài)、多源、多模態(tài)特點,提出基于預訓練模型和召回排序的跨模態(tài)檢索系統(tǒng),用于降低信息管理成本、提升信息搜索精度和效率,支撐大型賽事咨詢和新聞搜索的多模態(tài)自動化信息檢索。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的第一個目的在于提出一種基于預訓練模型和召回排序的跨模態(tài)檢索系統(tǒng),用于降低信息管理成本、提升信息搜索精度和效率,支撐大型賽事咨詢和新聞搜索的多模態(tài)自動化信息檢索。
本發(fā)明的第二個目的在于提出一種基于預訓練模型和召回排序的跨模態(tài)檢索方法。
為達上述目的,本發(fā)明第一方面實施例提出了一種基于預訓練模型和召回排序的跨模態(tài)檢索系統(tǒng),包括:多維度文本信息提取模塊,用于為所述跨模態(tài)檢索系統(tǒng)提供文本側(cè)的信息支持,通過不同維度擴大文本信息的語義表示,增加文本樣本量;智能圖像檢索模塊,包括視頻智能抽幀模塊和以圖搜圖模塊,其中,視頻智能抽幀模塊用于從一段視頻中抽取出最能代表視頻內(nèi)容的若干張圖片,以圖搜圖模塊用于完成大規(guī)模高效率的圖片檢索任務;跨模態(tài)檢索模塊,用于根據(jù)查詢項生成大致相關(guān)地候選集,對所述候選集進行精確排序,最終返回相關(guān)地檢索結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學,未經(jīng)北京郵電大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111229288.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





