[發(fā)明專利]模型訓練、圖片檢索方法及裝置在審
| 申請?zhí)枺?/td> | 202110311567.0 | 申請日: | 2021-03-23 |
| 公開(公告)號: | CN112989097A | 公開(公告)日: | 2021-06-18 |
| 發(fā)明(設計)人: | 曲福;金志鵬;任峰;申磊;劉云政;彭建;許青 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 劉麗麗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 訓練 圖片 檢索 方法 裝置 | ||
1.一種模型訓練方法,包括:
獲取樣本圖片以及每個樣本圖片的文本描述信息;以及
利用所述樣本圖片和所述每個樣本圖片的文本描述信息訓練第二多模態(tài)表征模型,得到第一多模態(tài)表征模型。
2.根據(jù)權(quán)利要求1所述的方法,其中,獲取樣本圖片的文本描述信息,包括以下至少之一:
獲取樣本圖片的標注信息,并將獲取的標注信息作為樣本圖片的文本描述信息;
獲取與樣本圖片關(guān)聯(lián)的文本信息,并將獲取的文本信息作為樣本圖片的文本描述信息;
獲取樣本圖片上自帶的文本信息,并將獲取的文本信息作為樣本圖片的文本描述信息。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述第二多模態(tài)表征模型包括以下之一:
雙路模型,其中,所述雙路模型是圖片和文本分兩路輸入的模型;
單路模型,其中,所述單路模型是圖片和文本通過一路輸入的模型。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述第二多模態(tài)表征模型是基于自注意力變換網(wǎng)絡構(gòu)建的模型。
5.一種圖片檢索方法,包括:
獲取目標圖片以及所述目標圖片的文本描述信息;
針對所述目標圖片提取圖片特征;
針對所述文本描述信息提取文本特征;
將所述圖片特征和所述文本特征輸入第一多模態(tài)表征模型,得到所述第一多模態(tài)表征模型輸出的融合特征向量;以及
基于所述融合特征向量進行圖片檢索。
6.根據(jù)權(quán)利要求5所述的方法,其中,獲取所述目標圖片的文本描述信息,包括以下至少之一:
獲取所述目標圖片的標注信息,并將該標注信息作為所述目標圖片的文本描述信息;
獲取與所述目標圖片關(guān)聯(lián)的文本信息,并將獲取的該文本信息作為所述目標圖片的文本描述信息;
獲取所述目標圖片上自帶的文本信息,并將獲取的該文本信息作為所述目標圖片的文本描述信息。
7.根據(jù)權(quán)利要求5所述的方法,其中,所述第一多模態(tài)表征模型是基于第二多模態(tài)表征模型訓練得到的,所述第二多模態(tài)表征模型是基于自注意力變換網(wǎng)絡構(gòu)建的模型。
8.根據(jù)權(quán)利要求5所述的方法,其中,基于所述融合特征向量進行圖片檢索,包括:
基于所述融合特征向量,在預先設定的索引庫中進行圖片檢索,
其中,通過以下操作構(gòu)建所述索引庫:
獲取多個圖片以及所述多個圖片中每個圖片的文本描述信息;
基于所述每個圖片以及該圖片的文本描述信息,利用所述第一多模態(tài)表征模型,獲取所述每個圖片的融合特征向量;以及
基于所述每個圖片的融合特征向量創(chuàng)建一個索引,從而構(gòu)成所述索引庫。
9.一種模型訓練裝置,包括:
第一獲取模塊,用于獲取樣本圖片以及每個樣本圖片的文本描述信息;以及
訓練模塊,用于利用所述樣本圖片和所述每個樣本圖片的文本描述信息訓練第二多模態(tài)表征模型,得到第一多模態(tài)表征模型。
10.根據(jù)權(quán)利要求9所述的裝置,其中,所述第一獲取模塊包括以下至少之一:
第一獲取單元,用于獲取樣本圖片的標注信息,并將獲取的標注信息作為樣本圖片的文本描述信息;
第二獲取單元,用于獲取與樣本圖片關(guān)聯(lián)的文本信息,并將獲取的文本信息作為樣本圖片的文本描述信息;
第三獲取單元,用于獲取樣本圖片上自帶的文本信息,并將獲取的文本信息作為樣本圖片的文本描述信息。
11.根據(jù)權(quán)利要求9所述的裝置,其中,所述第二多模態(tài)表征模型包括以下之一:
雙路模型,其中,所述雙路模型是圖片和文本分兩路輸入的模型;
單路模型,其中,所述單路模型是圖片和文本通過一路輸入的模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110311567.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





