[發明專利]一種圖像中文字幕生成方法有效

申請號：	201711260141.7	申請日：	2017-12-04
公開（公告）號：	CN107909115B	公開（公告）日：	2022-02-15
發明（設計）人：	王斌;王劍鋒;周小平;張倩;黃繼風	申請（專利權）人：	上海師范大學
主分類號：	G06F40/289	分類號：	G06F40/289;G06F40/237;G06F40/216;G06N3/04;G06N3/08
代理公司：	上海宛林專利代理事務所(普通合伙) 31361	代理人：	張明
地址：	200234 ***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種圖像中文字幕生成方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種圖像中文字幕生成方法，包括以下步驟：步驟一，構建訓練集：收集圖像并通過人工對圖像加上意思相近的中文描述；步驟二，訓練卷積神經網絡進行圖像特征提取，訓練完成卷積神經網絡后，對步驟一收集的圖像進行正向傳播運算，得到圖像的語義特征；步驟三，對每一句中文描述按語義進行分詞，并構造中文字典；步驟四，訓練循環神經網絡進行中文字幕生成；步驟五，進行圖像字幕生成，在測試或使用階段，將待生成字幕的圖像依次通過卷積神經網絡、循環神經網絡完成其圖像字幕生成任務。

技術領域

本發明涉及計算機視覺，機器學習和人工神經網絡領域，尤其涉及一種圖像中文字幕生成方法。

背景技術

在人工智能領域，人們的長期目標是開發出一種機器，它不僅能夠感知和理解我們周圍豐富的視覺世界，而且能夠運用自然語言與我們溝通。在計算機視覺領域，目前已經實現了多種不同的任務，例如圖像識別、圖像定位、圖像分割等。這些任務實現的主要步驟包括圖像特征提取以及分類器的訓練。圖像特征提取方法主要有：顏色直方圖特征、圖像紋理特征、方向梯度直方圖(Histogram of Oriented，HOG)特征、局部二值模式(LocalBinary Pattern，LBP)特征等，其中顏色直方圖和圖像紋理特征是圖像的全局特征，HOG和LBP是圖像的局部特征。分類器一般有SOFTMAX分類器、SVM分類器、神經網絡分類器以及集成分類器。這些任務的實現在很大程度上促進了人工智能的發展，但是這些任務都是將圖像或者圖像的局部劃分到事先指定的類別或者離散的標簽中。

圖像字幕生成(Image Caption Generation)是給定一張圖像，讓機器自動地生成一句自然語言來描述該圖像的內容，它本質上是一個從視覺到語言(Visual-to-language)的問題，簡單的來說就是我們希望計算機能夠根據圖像的內容給出能夠描述圖像內容的句子。圖像字幕生成任務不僅需要計算機理解圖像中所包含的對象，更重要的是要將這些對象之間的關系通過正確的自然語言表達出來。

因此，本領域的技術人員致力于開發一種圖像中文字幕生成方法，在初始階段利用了圖像的局部特征信息，并且還建立了圖像內容之間的位置關系，將每個單詞的語意信息同圖像的局部特征聯系起來；利用帶有注意力機制的神經網絡模型進行建模，建立的序列模型在每個時刻都會根據圖像特征信息和單詞語意信息產生一個注意力變量的分布，該變量分布就表示此時模型所注意圖像的位置信息。

發明內容

本發明的目的在于針對現在大多數計算機視覺任務都是將圖像劃分到離散的標簽中的不足，提出一種基于神經網絡的中文圖像字幕生成方法，從而克服了圖像到語言的障礙。

為實現上述目的，本發明提出了一種圖像中文字幕生成方法，包括以下步驟：

步驟一，構建訓練集：收集圖像并通過人工對圖像加上意思相近的中文描述；

步驟二，訓練卷積神經網絡進行圖像特征提取，訓練完成卷積神經網絡后，對步驟一收集的圖像進行正向傳播運算，得到圖像的語義特征；

步驟三，對每一句中文描述按語義進行分詞，并構造中文字典；

步驟四，訓練循環神經網絡進行中文字幕生成；

步驟五，進行圖像字幕生成，在測試或使用階段，將待生成字幕的圖像依次通過卷積神經網絡、循環神經網絡完成其圖像字幕生成任務。

進一步地，步驟一選用Flickr8k圖像字幕數據集。

進一步地，步驟二采用16層神經網絡，包括卷積、池化、激活等操作，利用卷積神經網絡提取圖像特征，獲得具有語義信息的特征。

進一步地，16層神經網絡包括13層卷積層和3層全連接層，每一層的激活函數選用Relu函數，并且在最后三層后加上Dropout層。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。