[發明專利]一種基于多任務學習和注意力機制的食品反演方法在審
| 申請號: | 202011426511.1 | 申請日: | 2020-12-09 |
| 公開(公告)號: | CN112488301A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 孫成林;白洪濤;蔡芷薇;何麗莉;曹英暉 | 申請(專利權)人: | 孫成林;白洪濤;蔡芷薇;何麗莉;曹英暉 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京遠大卓悅知識產權代理有限公司 11369 | 代理人: | 劉小嬌 |
| 地址: | 130000 吉林省長春市朝陽*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 任務 學習 注意力 機制 食品 反演 方法 | ||
本發明公開了一種基于多任務學習和注意力機制的食品反演方法,包括如下步驟:步驟1、采集食品數據,構建菜譜數據集;步驟2、建立并訓練基于注意力機制的食材文本模型,通過輸入食品圖片得到對應的食材文本;步驟3、建立并訓練菜譜生成模型,通過輸入食品圖片和食材文本進而得到所述食品圖片對應的菜譜文本;步驟4、將所述食材文本和所述菜譜文本分別轉化為對應的食材向量和菜譜向量,建立并訓練多任務卷積神經網絡模型;在所述多任務卷積神經網絡模型中通過輸入待測食品圖片進而得到所述待測食品圖片對應的食品分類、卡路里值、食材向量和菜譜向量。
技術領域
本發明涉及圖像識別技術領域,尤其涉及一種基于多任務學習和注意力機制的食品反演方法。
背景技術
最近幾年我們見證了許多關于視覺識別任務研究的卓越成就,包括圖像分類,實體識別以及圖像語義分割等。但是,與一般的圖像識別任務相比,食物圖像理解面臨著更加艱巨的挑戰,因為食物及其組成食材在經過了各種切割和烹飪操作以后,在形狀,形態,紋理和顏色等方面都發生了多樣的變化,且菜品中的不同食材之間往往存在著相互的遮擋。因此,食品圖像分析所面臨的挑戰已經超越了單純的計算機視覺任務。
一種早期的食材識別模型是PFD(成對局部特征分布),它利用食材預測的結果來進行食品分類。在PFD中,基于圖像塊的外觀,像素點被標記為食材的類別。然后以標簽共現它們的幾何特性,例如以距離和方向為特征,將像素之間的空間關系建模為多維直方圖。通過這些直方圖,PFD表現出令人印象深刻的食品識別性能。但是,PFD在食材種類上幾乎沒有任何可擴展性,僅使用8個類別,而在食品食材多樣的當下,這顯然無法滿足現實生活中的應用需要。
基于食品圖像的菜譜生成被設計為一個檢索任務。通過計算食品圖像在嵌入空間的相似度,系統從一個已有的數據集中檢索出對應的菜譜。然而,這類系統的表現高度依賴于檢索數據集的數據量和數據多樣性,以及網絡學習的嵌入向量的質量。此外,該系統也無法檢索到數據集以外的菜譜信息。
關于食物卡路里的估計,目前主流方法是根據的食物類別及其體積來預測食品產生的卡路里。基于深度相機的食物卡路里估算方法,通過深度相機拍攝食品圖片來預測食品量從而得到食品圖片的預測卡路里值。然而,深度相機作為特殊的設備,人們很難在日常生活中使用。
DietCam是一個通過多張圖片估算食物的卡路里的移動應用。它對食品圖像進行了語義分割和圖像識別,并重建了食品的3D體積,以此為依據預測食物卡路里。3D重建操作是通過基于SIFT的關鍵點匹配和單應性估計進行的;Pouladzadhe等提出的食物熱量預測系統需要從食品的頂部和側面兩個角度拍攝照片,并以用戶的拇指作為參照物。該方法通過將根據頂視圖圖像預測的高度與從側視圖預測的寬度相乘從而估計食品的體積。上述用多個圖像估計食物體積的方法,通常需要校準攝像機或調整拍攝角度,用戶操作難度大,流程復雜。
食品所含卡路里值主要依賴于食品的種類,體積,食材和烹飪方法等因素。有時相同類別的食品包含的卡路里不同,這是因為它們使用的食材和烹飪方法不同。因此,僅根據識別食品類別和體積不能完全解決食品卡路里預測任務,預測準確率有待提高。
發明內容
本發明設計開發了一種基于多任務學習和注意力機制的食品反演方法,本發明的發明目的是解決檢索式菜譜生成模型對數據集的依賴問題以及由于未考慮食品的食材和烹飪方法等因素,導致卡路里預測準確率低的問題。
本發明提供的技術方案為:
一種基于多任務學習和注意力機制的食品反演方法,包括如下步驟:
步驟1、采集食品數據,構建菜譜數據集;
步驟2、建立并訓練基于注意力機制的食材文本模型,通過輸入食品圖片得到對應的食材文本;
步驟3、建立并訓練菜譜生成模型,通過輸入食品圖片和食材文本進而得到所述食品圖片對應的菜譜文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于孫成林;白洪濤;蔡芷薇;何麗莉;曹英暉,未經孫成林;白洪濤;蔡芷薇;何麗莉;曹英暉許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011426511.1/2.html,轉載請聲明來源鉆瓜專利網。





