[發明專利]一種基于文本描述的行人圖像檢索方法有效
| 申請號: | 202011262275.4 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112364197B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 邵杰;張鵬;歐陽德強;蔣春林 | 申請(專利權)人: | 四川省人工智能研究院(宜賓) |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/55;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都正華專利代理事務所(普通合伙) 51229 | 代理人: | 李蕊 |
| 地址: | 644000 四川省宜賓市臨*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 描述 行人 圖像 檢索 方法 | ||
1.一種基于文本描述的行人圖像檢索方法,其特征在于,包括以下步驟:
S1、構建行人圖像檢索模型,對行人圖像檢索模型進行訓練,得到訓練完成的行人圖像檢索模型;
S2、采用訓練完成的行人圖像檢索模型計算圖像特征和文本特征之間的余弦相似度值,根據余弦相似度值,得到基于文本描述檢索到的行人圖像;
步驟S1中行人圖像檢索模型包括:圖像特征提取器、文本特征提取器和聯合嵌入學習器;
所述圖像特征提取器為去除最后全連接層的MobileNet模型;
所述文本特征提取器包括:詞嵌入層和雙向長短期記憶網絡;
所述聯合嵌入學習器包括:共享參數全連接層;
步驟S1包括以下分步驟:
S11、采用文本特征提取器對輸入文本進行特征提取,得到初始文本特征;
S12、采用圖像特征提取器對輸入的行人圖像進行特征提取,得到初始圖像特征;
S13、將初始文本特征和初始圖像特征輸入聯合嵌入學習器,構建損失函數模型,并基于損失函數模型對聯合嵌入學習器進行訓練,得到訓練完成的行人圖像檢索模型;
步驟S13中聯合嵌入學習器的共享參數全連接層的損失函數模型為:
L=Lmam+Lpsw+Lcmpm
其中,L為總體損失函數,Lmam為乘性角度余量損失函數,Lpsw為成對相似度加權損失函數,Lcmpm為跨模態投影匹配損失函數;
乘性角度余量損失函數為:
Lmam=Ltpi+Lipt
其中,Lipt為圖像分類損失函數,Ltpi為文本分類損失函數,N為N個圖像文本特征對,i為第i個圖像文本特征對,xi為經聯合嵌入學習器得到的圖像特征,zi為經聯合嵌入學習器得到的文本特征,為歸一化的圖像特征,為歸一化的文本特征,為圖像特征xi到上的投影圖像特征,為文本特征zi到上的投影文本特征,j為共享參數全連接層中的類別,yi為真實類別標簽,為全連接層中類別yi的歸一化類權重向量與投影圖像特征的夾角,θj,i為全連接層中類別j的歸一化權類權重向量與投影圖像特征的夾角,m為角度間隔系數;
成對相似度加權損失函數為:
其中,Lpsw為成對相似度加權損失函數,N為N個圖像文本特征對,i為第i個圖像文本特征對,為第一組超參數,為第二組超參數,為第個圖像文本特征對,Sii為圖像特征xi與其匹配的文本特征zi的相似度,為文本特征與其匹配的圖像特征的相似度,為Sii的p次方,為的p 次方,p和q為次方數,為圖像特征xi與xi的負樣本的相似度分數集合,為文本特征與的負樣本的相似度分數集合,為集合中最大值的q次方,為集合中最大值的q次方;
跨模態投影匹配損失函數為:
其中,Lcmpm為跨模態投影匹配損失函數,N為N個圖像文本特征對,i為第i個圖像文本特征對,為第個圖像文本特征對,xi為經聯合嵌入學習器得到的圖像特征,為第k個歸一化的文本特征,為第個歸一化的文本特征,為第個文本特征,為第i個圖像特征與第個文本特征是否匹配,匹配取1,不匹配取0,yi,k為第i個圖像特征與第k個文本特征是否匹配,匹配取1,不匹配取0,∈為避免出現分母為0而設置的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川省人工智能研究院(宜賓),未經四川省人工智能研究院(宜賓)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011262275.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種非主流鋰礦的焙燒工藝
- 下一篇:一種輔助挖掘機脫離泥沼的設備





