[發明專利]一種基于改進的生成式對抗網絡的圖像語句轉換方法在審
| 申請號: | 201710598010.3 | 申請日: | 2017-07-20 |
| 公開(公告)號: | CN107392147A | 公開(公告)日: | 2017-11-24 |
| 發明(設計)人: | 蔡強;薛子育;毛典輝;李海生;祝曉斌 | 申請(專利權)人: | 北京工商大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 北京科迪生專利代理有限責任公司11251 | 代理人: | 安麗 |
| 地址: | 100048*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 生成 對抗 網絡 圖像 語句 轉換 方法 | ||
1.一種基于改進的生成式對抗網絡的圖像語句轉換方法,其特征在于,包括以下步驟:
(1)利用基于區域的卷積神經網絡對圖像進行顯著性檢測,對檢測部分進行分析,產生詞向量;
(2)利用生成式對抗網絡中的生成器對步驟(1)中產生的詞向量進行拼接,所述生成器利用兩個長短時記憶模型,即句子模型和詞匯模型,句子模型根據詞向量不斷生成句子;詞匯模型將根據語境優化句子中的單詞,使之更符合人類的表達習慣;
(3)利用生成式對抗網絡中的鑒別器對步驟(2)生成的句子進行結構分析,同時學習語料庫中的對比語句,對生成語句中的詞匯與語料庫語句中的詞匯一一檢查,利用歐氏距離計算詞匯相似程度即相似度,使得該相似度計算值滿足設定閾值,則所生成語句通過混淆鑒別器,獲得了輸出語句;
(4)利用步驟(2)中的生成器和步驟(3)中的鑒別器形成生成式對抗網絡,沿著梯度下降最快的方向,在避免梯度消失的基礎上對網絡進行訓練,通過在生成器訓練過程中設置檢測點,使生成器生成的語句,足以蒙騙鑒別器的鑒別效果,將所述語句進行輸出。
2.根據權利要求1所述的基于改進的生成式對抗網絡的圖像語句轉換方法,其特征在于:在步驟(1)中基于區域的卷積神經網絡對圖像進行顯著性檢測所涉及的計算方式為:
其中,θC是CNN模型的參數,WM是h×4096維的矩陣,h是多通道嵌入空間的大小,Ip表示圖像的像素點;
輸入的每張圖像轉換成具有N個詞的序列,用編碼為h維的向量,對圖像中出現的各個顯著性區域對應產生詞向量。
3.根據權利要求1所述的基于改進的生成式對抗網絡的圖像語句轉換方法,其特征在于:在步驟(2)生成式對抗網絡中的生成器中長短時記憶模型所涉及的計算公式為:
其中,Whi,Whx,Whh,Woh,xi以及bh,bo都是需要學習的參數,是所有網絡的最后一層,yt是生成器輸出盡可能接近語料庫中句子分布的句子;
該過程利用句子模型和詞匯模型將利用CNN模型提取出的向量生成的經過優化的句子,作為鑒別器的輸入。
4.根據權利要求1所述的基于改進的生成式對抗網絡的圖像語句轉換方法,其特征在于:在步驟(4)生成式對抗網絡生成器和鑒別器的訓練過程中所涉及的計算公式為:
其中,GAN的目標函數為是語料庫中句子的子集,S,S1:t是CNN模型的參數,WM是h×4096維的矩陣,h是多通道嵌入空間的大小,Ip表示圖像的像素點,E(·)表示計算期望值,每張圖像轉換成具有N個詞的序列,可以用編碼為h維的向量;
在訓練過程中,生成器G的目標就是盡量生成與原始數據接近的結果去欺騙鑒別器D;而D的目標就是盡量把G生成的結果和真實數據區分開來,直到生成器和鑒別器達到平衡輸出分布接近真實語料庫的句子,生成器的目標計算方式為:
其中,γ為平衡參數實現時一般設置為接近0的值,生成式對抗網絡的優化過程依賴于生成器與語料庫語句中的詞匯進行檢查利用歐氏距離計算詞匯相似程度,使得該距離滿足設定閾值,則所生成語句通過混淆鑒別器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工商大學,未經北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710598010.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種兒童坐姿檢測方法及裝置
- 下一篇:一種指紋檢測方法及移動終端





