[發(fā)明專利]一種圖像語義理解方法、裝置、設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	202210067262.4	申請日：	2022-01-20
公開（公告）號：	CN114429566A	公開（公告）日：	2022-05-03
發(fā)明（設(shè)計）人：	劉志遠(yuǎn);趙建博;劉涵宇;馬偉;謝奇奇;劉超;劉朋樟;包勇軍	申請（專利權(quán)）人：	北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司
主分類號：	G06V10/764	分類號：	G06V10/764;G06V10/774;G06K9/62;G06F16/35;G06F40/30;G06Q30/06
代理公司：	北京品源專利代理有限公司 11332	代理人：	趙迎迎
地址：	100176 北京市大興區(qū)北京經(jīng)濟***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種圖像語義理解方法裝置設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種圖像語義理解方法，其特征在于，包括：

獲取目標(biāo)圖像信息；

將所述目標(biāo)圖像信息輸入至預(yù)先訓(xùn)練的語義理解模型中，獲得所述語義理解模型輸出的語義分類結(jié)果，所述語義理解模型基于關(guān)聯(lián)的圖像信息和文本信息訓(xùn)練得到；

根據(jù)所述語義分類結(jié)果確定語義理解結(jié)果。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語義理解模型包括圖像編碼子模型和語義分類子模型，所述將所述目標(biāo)圖像信息輸入至預(yù)先訓(xùn)練的語義理解模型中，獲得所述語義理解模型輸出的語義分類結(jié)果，包括：

將所述目標(biāo)圖像信息輸入至所述圖像編碼子模型中，得到所述圖像編碼子模型輸出的目標(biāo)圖像語義向量；

將所述目標(biāo)圖像語義向量輸入至所述語義分類子模型中，得到所述語義分類子模型輸出的語義分類結(jié)果。

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述語義理解模型的訓(xùn)練包括：

基于評價信息中相關(guān)聯(lián)的圖文信息生成正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)，根據(jù)所述正樣本數(shù)據(jù)和所述負(fù)樣本數(shù)據(jù)生成訓(xùn)練樣本數(shù)據(jù)；

基于所述訓(xùn)練樣本數(shù)據(jù)，對預(yù)先構(gòu)建的語義理解模型進行訓(xùn)練，得到訓(xùn)練后的語義理解模型。

4.根據(jù)權(quán)利要求3所述的方法，其特征在于，所述基于評價信息中相關(guān)聯(lián)的圖文信息生成正樣本數(shù)據(jù)和負(fù)樣本數(shù)據(jù)，包括：

獲取評價信息中的相關(guān)聯(lián)的圖文信息作為樣本基礎(chǔ)信息；

對所述樣本基礎(chǔ)信息進行數(shù)據(jù)規(guī)范化處理，得到所述正樣本數(shù)據(jù)；

將所述評價信息中的圖像信息和文本信息隨機組合，得到所述負(fù)樣本數(shù)據(jù)。

5.根據(jù)權(quán)利要求3中的方法，其特征在于，所述圖像編碼子模型包括文本編碼器和圖像編碼器，所述基于所述訓(xùn)練樣本數(shù)據(jù)，對預(yù)先構(gòu)建的語義理解模型進行訓(xùn)練，得到訓(xùn)練后的語義理解模型，包括：

針對所述訓(xùn)練樣本數(shù)據(jù)中的圖文信息對，將所述圖文信息對的樣本文本信息輸入至所述文本編碼器中，獲得所述文本編碼器輸出的目標(biāo)文本編碼信息，將所述圖文信息對的樣本圖像信息輸入至所述圖像編碼器中，獲得所述圖像編碼器輸出的目標(biāo)圖像編碼信息；

基于所述目標(biāo)文本編碼信息和所述目標(biāo)圖像編碼信息確定目標(biāo)損失值，以所述目標(biāo)損失值達到收斂條件為目標(biāo)，對所述圖像編碼子模型進行訓(xùn)練，得到訓(xùn)練后的圖像編碼子模型；

基于訓(xùn)練后的圖像編碼子模型對所述語義分類子模型進行訓(xùn)練，得到訓(xùn)練后的語義分類子模型。

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述圖文信息對中包含至少兩個樣本圖像信息，所述將所述圖文信息對的樣本圖像信息輸入至所述圖像編碼器中，獲得所述圖像編碼器輸出的目標(biāo)圖像編碼信息，包括：

將各所述樣本圖像信息疊加，得到疊加圖像信息；

將所述疊加圖像信息輸入至所述圖像編碼器中，獲得所述圖像編碼器輸出的目標(biāo)圖像編碼信息。

7.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述圖文信息對中包含至少兩個樣本圖像信息，所述將所述圖文信息對的樣本圖像信息輸入至所述圖像編碼器中，獲得所述圖像編碼器輸出的圖像編碼信息，包括：

分別將各所述樣本圖像信息輸入至所述圖像編碼器中，得到所述圖像編碼器輸出的各所述樣本圖像信息的圖像編碼信息；

將各所述樣本圖像信息的圖像編碼信息求和，得到所述目標(biāo)圖像編碼信息。

8.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述文本編碼器和所述圖像編碼器分別與所述語義分類子模型相連接，所述基于訓(xùn)練后的圖像編碼子模型對所述語義分類子模型進行訓(xùn)練，得到訓(xùn)練后的語義分類子模型，包括：

針對所述訓(xùn)練樣本數(shù)據(jù)中的文本信息，基于所述文本編碼器確定所述文本信息的文本編碼信息；

根據(jù)所述文本編碼信息和所述文本信息的標(biāo)簽構(gòu)建語義分類模型訓(xùn)練樣本；

基于所述語義分類模型訓(xùn)練樣本，對預(yù)先構(gòu)建的語義分類子模型進行訓(xùn)練，得到訓(xùn)練后的語義分類子模型。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司，未經(jīng)北京沃東天駿信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210067262.4/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種數(shù)據(jù)處理方法、裝置、存儲介質(zhì)及計算機設(shè)備
下一篇：一種折疊式物料輸送設(shè)備

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】