[發明專利]使用弱監督數據自動生成圖像字幕的方法和系統有效
| 申請號: | 201610995334.6 | 申請日: | 2016-11-11 |
| 公開(公告)號: | CN106973244B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 王兆聞;尤全增;金海琳;方晨 | 申請(專利權)人: | 奧多比公司 |
| 主分類號: | H04N5/278 | 分類號: | H04N5/278;H04N21/431;H04N21/488;G06N3/08;G06N3/04 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 酆迅 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 監督 數據 自動 生成 圖像 字幕 方法 系統 | ||
本發明的各實施例總體上涉及使用弱監督為圖像配字幕。具體地,本文中描述了用于使用弱監督為圖像配字幕的技術。在實現中,獲取關于目標圖像的弱監督數據并且使用其提供補充被獲得用于圖像配字幕的全局圖像概念的細節信息。弱監督數據是指沒有被緊密地監管并且可能包括誤差的噪聲數據。給定目標圖像,可以從弱注釋的圖像的源、諸如在線社交網絡采集在視覺上相似的圖像的弱監督數據。通常,在線發布的圖像包括由用戶添加的標簽、標題、標注和短描述形式的“弱”注釋。通過提取在不同源中發現的在視覺上相似的圖像的關鍵詞來生成目標圖像的弱監督數據。然后在圖像配字幕分析期間采用弱監督數據中包括的關鍵詞來調制被應用于概率分類的權重。
背景技術
自動生成圖像的自然語言描述由于用于圖像搜索、視覺受損人群的可訪問性、以及圖像采集的管理的實際應用而不斷地吸引著人們的興趣。傳統的用于圖像處理的技術由于傳統的圖像標記和搜索算法的限制而不支持高精度自然語言配字幕和圖像搜索。這是因為,傳統的技術僅使標簽與圖像相關聯,但是沒有定義標簽之間或者標簽與圖像本身之間的關系。另外,傳統的技術可以包括使用自頂向下方法,在該方法中,首先得到圖像的整個“要點”然后通過語言建模和語句生成將其細化為適當的描述性詞語或字幕。然而,這一自頂向下方法在捕獲圖像的精細細節(諸如貢獻圖像的精確描述的局部對象、屬性和區域方面)工作并不良好。這樣,可能很難使用傳統的方法來生成精確且復雜的圖像字幕,諸如“給在高的椅子中拿著玩具的孩子喂食的人”。因此,使用傳統的技術生成的字幕可能忽略重要的圖像細節,這使得用戶很難搜索具體圖像并且基于相關聯的字幕來全面地理解圖像的內容。
發明內容
本發明內容部分介紹簡化形式的概念的選擇,這些概念在下面在具體實施例部分中進一步描述。這樣,本發明內容部分并非意圖標識要求保護的主題的基本特征,也并非意圖用于幫助確定要求保護的主題的范圍。
本文中描述用于使用弱監督為圖像配字幕的技術。在一個或多個實現中,獲取關于目標圖像的弱監督數據并且使用其提供補充被獲得用于圖像配字幕的全局圖像概念的細節信息。弱監督數據是指沒有被緊密地監管并且可能包括誤差的噪聲數據。給定目標圖像,可以從弱注釋的圖像的不同的源(諸如在線社交網絡、圖像共享站點和圖像數據庫)來采集在視覺上相似的圖像的弱監督數據。通常,在線發布的圖像包括由用戶添加的標簽、標題、標注和短描述形式的“弱”注釋。通過提取和聚合在弱注釋圖像的不同的源中發現的在視覺上相似的圖像的關鍵詞來生成目標圖像的弱監督數據。然后,在圖像配字幕分析期間采用弱監督數據中包括的關鍵詞來調制被應用于概率分類的權重。因此,取決于弱監督數據來計算用于預測圖像配字幕的詞語的概率分布。
在各實現方式中,圖像配字幕框架基于神經網絡和機器學習。給定目標圖像,應用特征提取技術以得到描述圖像的“要點”的全局圖像概念。例如,可以使用預先訓練的卷積神經網絡(CNN)來使用全局描述性術語對圖像編碼。CNN產生反映全局圖像概念的視覺特征矢量。然后,將所得到的關于全局圖像概念的信息饋送到語言處理模型中,語言處理模型操作以在概率上生成圖像的描述性字幕。比如,可以將視覺特征矢量饋送到循環神經網絡(RNN)中,RNN被設計成實現語言建模和語句生成技術。RNN被設計成基于根據多個迭代中的權重因子計算的概率分布來迭代地預測用于組合作為目標圖像的字幕的詞語的序列。在這一上下文中,弱監督數據通過調制在模型中施加的權重因子來向RNN通知說明附加細節信息的操作。以這一方式,將弱監督數據中包括的關鍵詞注入到圖像配字幕框架中以補充全局圖像概念,這使得能夠以更大復雜性和精度來生成圖像字幕。
附圖說明
參考附圖來描述詳細描述。在附圖中,附圖標記的最左側數字標識其中首次出現該附圖標記的附圖。在描述和附圖中不同實例中的相同的附圖標記的使用可以表示相似或相同的術語。附圖中表示的實體可以表示一個或多個實體,因此可以在討論中可互換地引用這些實體的單數或復數形式。
圖1是可操作以采用本文中描述的技術的示例實現方式中的環境的圖示;
圖2描繪示出根據一個或多個實現方式的字幕生成器的細節的圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奧多比公司,未經奧多比公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610995334.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種芯片、數字視頻信號傳輸系統
- 下一篇:影像感測器及使用其的影像擷取裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





