[發明專利]一種訓練模型的方法、圖像檢索的方法以及裝置在審
| 申請號: | 202110132038.4 | 申請日: | 2021-01-30 |
| 公開(公告)號: | CN113159095A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 李煒棉;朱凱強;黃飛;許松岑 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/02 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 模型 方法 圖像 檢索 以及 裝置 | ||
本申請公開了一種訓練模型的方法,涉及人工智能領域,包括:獲取多個訓練樣本,每個訓練樣本包括圖像和文本,文本用于描述圖像中的目標對象。將多個訓練樣本輸入目標模型中,以使目標模型執行下述流程,直至滿足預設的停止條件:提取第一圖像的圖像特征和第一文本的文本特征。根據第一向量和第二向量之間的差異獲取第一損失值。第一向量的維度和第二向量的維度相同,第一向量用于指示第一圖像的圖像特征,第二向量用于指示第一文本的文本特征。根據第一損失值更新目標模型。本申請提供的方案利用文本特征指導圖像特征的學習,使通過目標模型提取的圖像特征對圖像的表征能力更好。
技術領域
本申請涉及圖像處理領域,尤其涉及一種訓練模型的方法、圖像檢索的方法以及裝置。
背景技術
人工智能(artificial intelligence,AI)是利用數字計算機或者數字計算機控制 的機器模擬、延伸和擴展人的智能,感知環境、獲取知識并使用知識獲得最佳結果的理論、 方法、技術及應用系統。換句話說,人工智能是計算機科學的一個分支,它企圖了解智能 的實質,并生產出一種新的能以人類智能相似的方式作出反應的智能機器。人工智能也就 是研究各種智能機器的設計原理與實現方法,使機器具有感知、推理與決策的功能。人工 智能領域的研究包括機器人,自然語言處理,計算機視覺,決策與推理,人機交互,推薦與搜索,AI基礎理論等。
圖像檢索是計算機視覺中備受關注的問題之一,而產品的圖像檢索是圖像檢索中非常 重要的部分。產品的圖像檢索是指根據用戶輸入的產品圖像,獲取該產品圖像的圖像特征, 根據該圖像特征從圖像數據庫中檢索出對應的產品,并向用戶展示。產品的圖像檢索技術 在電商行業中有廣泛的應用,商業價值巨大。
產品圖像檢索要求返回的結果與查詢圖像對應的產品完全一致。然而,圖像數據庫中 可能包括大量外觀相似的產品,這給產品圖像檢索帶來了很大的挑戰。此外,由于不同用 戶拍攝產品時拍照角度、拍照環境存在差異,導致輸入的產品圖像和圖像數據庫中的產品 圖像可能有很大差異。因此,如何提升產品圖像檢索的精度亟待解決。
發明內容
本申請實施例提供一種訓練模型的方法,圖像檢索的方法以及裝置。通過本申請實施 例提供的一種訓練模型的方法獲取的圖像特征執行圖像檢索任務,可以有效提升圖像檢索 的精度、圖像檢索的速度、并且降低對圖像數據庫的存儲性能的要求。
為達到上述目的,本申請實施例提供如下技術方案:
本申請第一方面提供一種訓練模型的方法,可以包括:獲取多個訓練樣本,每個訓練 樣本可以包括圖像和文本,文本用于描述圖像中的目標對象。其中目標對象可以是一個也 可以是多個。將多個訓練樣本輸入目標模型中,以使目標模型執行下述流程,直至滿足預 設的停止條件:提取第一圖像的圖像特征和第一文本的文本特征。選擇不同的圖像特征提 取模型提取各個訓練樣本中的圖像的圖像特征。比如可以采用Resnet50或者SEResnet50 提取圖像特征,再比如,可以采用Efficient-NetB3模型提取圖像特征。選擇不同的本文 特征提取模型提取各個訓練樣本中的文本的文本特征比如,可以采用GPT模型提取文本特 征,再比如可以采用Bert模型提取文本特征。第一圖像是多個訓練樣本中任意一個訓練 樣本中可以包括的圖像,第一文本用于描述第一圖像中的目標對象。根據第一向量和第二 向量之間的差異獲取第一損失值,第一向量的維度和第二向量的維度相同,第一向量用于 指示第一圖像的圖像特征,第二向量用于指示第一文本的文本特征。根據第一損失值更新 目標模型。本申請提供的方案通過在同構空間內減少圖像特征與文本特征的差異性。其中, 預設的停止條件可以理解為目標模型收斂了,或者達到預設數目的迭代輪次。由于模型的 訓練過程是不斷的降低損失值的過程,當通過損失值1更新目標模型時,損失值1不斷減 小,則同一個產品的圖像特征對應的向量和文本特征對應的向量之間的距離也會更靠近。 相比于只通過圖像特征對目標模型進行訓練,本申請提供的方案在目標模型的訓練過程 中,融合了文本特征。通過本申請提供的方案訓練后的目標模型提取的圖像特征對圖像的 表征能力更好。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110132038.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能網絡監控系統
- 下一篇:一種神經網絡的訓練方法及相關設備
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





