[發明專利]一種基于多任務學習和注意力機制的食品反演方法在審
| 申請號: | 202011426511.1 | 申請日: | 2020-12-09 |
| 公開(公告)號: | CN112488301A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 孫成林;白洪濤;蔡芷薇;何麗莉;曹英暉 | 申請(專利權)人: | 孫成林;白洪濤;蔡芷薇;何麗莉;曹英暉 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京遠大卓悅知識產權代理有限公司 11369 | 代理人: | 劉小嬌 |
| 地址: | 130000 吉林省長春市朝陽*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 任務 學習 注意力 機制 食品 反演 方法 | ||
1.一種基于多任務學習和注意力機制的食品反演方法,其特征在于,包括如下步驟:
步驟1、采集食品數據,構建菜譜數據集;
步驟2、建立并訓練基于注意力機制的食材文本模型,通過輸入食品圖片得到對應的食材文本;
步驟3、建立并訓練菜譜生成模型,通過輸入食品圖片和食材文本進而得到所述食品圖片對應的菜譜文本;
步驟4、將所述食材文本和所述菜譜文本分別轉化為對應的食材向量和菜譜向量,建立并訓練多任務卷積神經網絡模型;
在所述多任務卷積神經網絡模型中通過輸入待測食品圖片進而得到所述待測食品圖片對應的食品分類、卡路里值、食材向量和菜譜向量。
2.如權利要求1所述的基于多任務學習和注意力機制的食品反演方法,其特征在于,在所述步驟2中,通過Transformer模型建立食材文本模型過程包括:
將食品圖片特征向量作為輸入,輸出為生成食材的序列L=(l0,…,lk,…,lK),式中,lk代表序列中的一種食材。
3.如權利要求2所述的基于多任務學習和注意力機制的食品反演方法,其特征在于,在所述步驟2中,通過列表結構表示所述食品圖片對應的生成食材,包括:
確定包含N個食材元素的字典為從字典D種選擇K個元素,生成食材列表將L編碼為K×N維的二進制矩陣L,當dj∈D被選中時,Li,j=1,否則Li,j=0;
所述食材文本模型的訓練數據包含M張食品圖像和食材列表對所述食材文本模型的優化目標為
式中,為根據圖像x預測的目標矩陣,θI和θL分別是圖像編碼器和食材解碼器的可學習參數;
將分解為K個條件句:并指定為食材分類的概率分布。
4.如權利要求3所述的基于多任務學習和注意力機制的食品反演方法,其特征在于,在所述步驟2中,通過Transformer模型建立食材文本模型通過Adam優化器進行數據優化:設置β1=0.9,β2=0.99,∈=1e-8,設置學習率0.001,其中,預訓練殘差網絡層學習率為0.0001;訓練最大訓練輪次為200輪,使用早停法,設置patience為50,如果50輪訓練后驗證數據的iou標準沒有改善,則執行早停;其中,batch_size設置為128,num_workers設置為4。
5.如權利要求1所述的基于多任務學習和注意力機制的食品反演方法,其特征在于,在所述步驟3中,通過Transformer模型建立菜譜文本模型過程包括:
將食品圖片特征向量和食材文本特征向量作為輸入,輸出為生成菜譜的序列R=(r1,…,rt,…,rT),式中,rt為序列中的一種詞。
6.如權利要求3所述的基于多任務學習和注意力機制的食品反演方法,其特征在于,在所述步驟2中,通過Transformer模型建立菜譜文本模型通過Adam優化器進行數據優化:β1=0.9,β2=0.99,∈=1e-8,設置初始學習率0.001,每十個輪次衰減一次,衰減因子為0.99;本次訓練最大訓練輪次為200輪,使用早停法,設置patience為50,如果50輪訓練后驗證數據的iou標準沒有改善,則執行早停;其中,batch_size設置為128,num_workers設置為4。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于孫成林;白洪濤;蔡芷薇;何麗莉;曹英暉,未經孫成林;白洪濤;蔡芷薇;何麗莉;曹英暉許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011426511.1/1.html,轉載請聲明來源鉆瓜專利網。





