[發明專利]使用弱監督數據自動生成圖像字幕的方法和系統有效

申請號：	201610995334.6	申請日：	2016-11-11
公開（公告）號：	CN106973244B	公開（公告）日：	2021-04-20
發明（設計）人：	王兆聞;尤全增;金海琳;方晨	申請（專利權）人：	奧多比公司
主分類號：	H04N5/278	分類號：	H04N5/278;H04N21/431;H04N21/488;G06N3/08;G06N3/04
代理公司：	北京市金杜律師事務所 11256	代理人：	酆迅
地址：	美國加利***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	使用監督數據自動生成圖像字幕方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明的各實施例總體上涉及使用弱監督為圖像配字幕。具體地，本文中描述了用于使用弱監督為圖像配字幕的技術。在實現中，獲取關于目標圖像的弱監督數據并且使用其提供補充被獲得用于圖像配字幕的全局圖像概念的細節信息。弱監督數據是指沒有被緊密地監管并且可能包括誤差的噪聲數據。給定目標圖像，可以從弱注釋的圖像的源、諸如在線社交網絡采集在視覺上相似的圖像的弱監督數據。通常，在線發布的圖像包括由用戶添加的標簽、標題、標注和短描述形式的“弱”注釋。通過提取在不同源中發現的在視覺上相似的圖像的關鍵詞來生成目標圖像的弱監督數據。然后在圖像配字幕分析期間采用弱監督數據中包括的關鍵詞來調制被應用于概率分類的權重。

背景技術

自動生成圖像的自然語言描述由于用于圖像搜索、視覺受損人群的可訪問性、以及圖像采集的管理的實際應用而不斷地吸引著人們的興趣。傳統的用于圖像處理的技術由于傳統的圖像標記和搜索算法的限制而不支持高精度自然語言配字幕和圖像搜索。這是因為，傳統的技術僅使標簽與圖像相關聯，但是沒有定義標簽之間或者標簽與圖像本身之間的關系。另外，傳統的技術可以包括使用自頂向下方法，在該方法中，首先得到圖像的整個“要點”然后通過語言建模和語句生成將其細化為適當的描述性詞語或字幕。然而，這一自頂向下方法在捕獲圖像的精細細節(諸如貢獻圖像的精確描述的局部對象、屬性和區域方面)工作并不良好。這樣，可能很難使用傳統的方法來生成精確且復雜的圖像字幕，諸如“給在高的椅子中拿著玩具的孩子喂食的人”。因此，使用傳統的技術生成的字幕可能忽略重要的圖像細節，這使得用戶很難搜索具體圖像并且基于相關聯的字幕來全面地理解圖像的內容。

發明內容

本發明內容部分介紹簡化形式的概念的選擇，這些概念在下面在具體實施例部分中進一步描述。這樣，本發明內容部分并非意圖標識要求保護的主題的基本特征，也并非意圖用于幫助確定要求保護的主題的范圍。

本文中描述用于使用弱監督為圖像配字幕的技術。在一個或多個實現中，獲取關于目標圖像的弱監督數據并且使用其提供補充被獲得用于圖像配字幕的全局圖像概念的細節信息。弱監督數據是指沒有被緊密地監管并且可能包括誤差的噪聲數據。給定目標圖像，可以從弱注釋的圖像的不同的源(諸如在線社交網絡、圖像共享站點和圖像數據庫)來采集在視覺上相似的圖像的弱監督數據。通常，在線發布的圖像包括由用戶添加的標簽、標題、標注和短描述形式的“弱”注釋。通過提取和聚合在弱注釋圖像的不同的源中發現的在視覺上相似的圖像的關鍵詞來生成目標圖像的弱監督數據。然后，在圖像配字幕分析期間采用弱監督數據中包括的關鍵詞來調制被應用于概率分類的權重。因此，取決于弱監督數據來計算用于預測圖像配字幕的詞語的概率分布。

在各實現方式中，圖像配字幕框架基于神經網絡和機器學習。給定目標圖像，應用特征提取技術以得到描述圖像的“要點”的全局圖像概念。例如，可以使用預先訓練的卷積神經網絡(CNN)來使用全局描述性術語對圖像編碼。CNN產生反映全局圖像概念的視覺特征矢量。然后，將所得到的關于全局圖像概念的信息饋送到語言處理模型中，語言處理模型操作以在概率上生成圖像的描述性字幕。比如，可以將視覺特征矢量饋送到循環神經網絡(RNN)中，RNN被設計成實現語言建模和語句生成技術。RNN被設計成基于根據多個迭代中的權重因子計算的概率分布來迭代地預測用于組合作為目標圖像的字幕的詞語的序列。在這一上下文中，弱監督數據通過調制在模型中施加的權重因子來向RNN通知說明附加細節信息的操作。以這一方式，將弱監督數據中包括的關鍵詞注入到圖像配字幕框架中以補充全局圖像概念，這使得能夠以更大復雜性和精度來生成圖像字幕。

附圖說明

參考附圖來描述詳細描述。在附圖中，附圖標記的最左側數字標識其中首次出現該附圖標記的附圖。在描述和附圖中不同實例中的相同的附圖標記的使用可以表示相似或相同的術語。附圖中表示的實體可以表示一個或多個實體，因此可以在討論中可互換地引用這些實體的單數或復數形式。

圖1是可操作以采用本文中描述的技術的示例實現方式中的環境的圖示；

圖2描繪示出根據一個或多個實現方式的字幕生成器的細節的圖；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于奧多比公司，未經奧多比公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201610995334.6/2.html，轉載請聲明來源鉆瓜專利網。