[發(fā)明專利]一種基于神經(jīng)網(wǎng)絡模型的圖像到漢語古詩的轉換方法有效
| 申請?zhí)枺?/td> | 201711064401.3 | 申請日: | 2017-11-02 |
| 公開(公告)號: | CN107832292B | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設計)人: | 劉學亮;洪日昌;汪萌;郝世杰;邢碩 | 申請(專利權)人: | 合肥工業(yè)大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/51;G06N3/04;G06N5/02 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經(jīng)網(wǎng)絡 模型 圖像 漢語 古詩 轉換 方法 | ||
1.一種基于神經(jīng)網(wǎng)絡模型的圖像到漢語古詩的轉換方法,其特征包括如下步驟:
步驟1、收集現(xiàn)有的漢語古詩作為詩集數(shù)據(jù)集Q={q1,q2,...,qi,...,qn},qi表示第i首漢語古詩,并有表示所述第i首漢語古詩中第v個字符,i=1,2,…,n,v=1,2,...,Vi;
獲取圖片資源以及與所述圖片資源對應的語句描述資源作為圖像數(shù)據(jù)集T={(I1,s1),(I2,s2),...,(Ij,sj),....,(Im,sm)};其中,Ij表示第j張圖片,sj表示所述第j張圖片對應的語句描述,并有:表示所述第j張圖片對應的語句描述中第z個字符,j=1,2,…,m,z=1,2,…,Zj;
步驟2、建立多模態(tài)循環(huán)神經(jīng)網(wǎng)絡,所述多模態(tài)循環(huán)神經(jīng)網(wǎng)絡由深度卷積神經(jīng)網(wǎng)絡CNN和長短期記憶網(wǎng)絡LSTM組成,并對所述多模態(tài)循環(huán)神經(jīng)網(wǎng)絡進行訓練,得到圖片最終的目標描述語句;
步驟2.1、利用式(1)所示的深度卷積神經(jīng)網(wǎng)絡CNN將第j張圖片Ij映射到向量空間W中,從而得到第j張圖片Ij的向量x′j:
x′j=Wc[CNN(Ij)] (1)
式(1)中,CNN(Ij)表示利用深度神經(jīng)網(wǎng)絡CNN提取出的第j張圖片Ij的特征向量,Wc為所述向量空間W的圖像映射矩陣;
步驟2.2、利用式(2)所示的熱編碼方法將所述第j張圖片Ij對應的語句描述sj映射到所述向量空間W中,從而得到語句描述sj的向量其中,表示所述語句描述sj中第z個字符的向量,x0表示所有語句描述的開始字符的向量,表示所有語句描述的結束字符的向量:
式(2)中,為所述語句描述sj中第z個字符的熱編碼向量,We為所述向量空間W的字符映射矩陣;
步驟2.3、將所述第j張圖片Ij的向量x′j及其對應的語句描述sj的向量xj輸入到式(3)所示的長短期記憶網(wǎng)絡LSTM中,得到第j張圖片Ij的目標描述語句的概率分布其中,表示所述第j張圖片Ij的目標描述語句的概率分布yj中第z個字符的概率分布,y0表示所有目標描述語句的開始字符的概率分布,表示所有目標描述語句的結束字符的概率分布:
式(3)中,θσ為長短期記憶網(wǎng)絡的參數(shù);
步驟2.4、從所述第j張圖片Ij的目標描述語句的概率分布yj中第z個字符的概率分布中選取概率最大的字符作為所述第j張圖片Ij的目標描述語句的第z個字符,從而得到所述第j張圖片Ij的目標描述語句;
步驟2.5、利用所述圖像數(shù)據(jù)集T對所述多模態(tài)循環(huán)神經(jīng)網(wǎng)絡進行訓練,得到所述第j張圖片Ij最終的目標描述語句;
步驟2.5.1、選用所述目標描述語句的概率分布yj的負對數(shù)似然和的均值作為損失函數(shù)L1(I,s)如式(4)所示:
式(4)中,N為批大小,表示每次訓練迭代時的圖片數(shù)量,且N<m;I表示每次訓練迭代的N張圖片集合,s表示每次訓練迭代的N張圖片集合I的對應的語句描述集合;
步驟2.5.2、采用最小批隨機梯度下降法對所述損失函數(shù)L1(I,s)進行最小化處理,得到所述損失函數(shù)L1(I,s)的導數(shù)L′1;
步驟2.5.3、令所述多模態(tài)循環(huán)神經(jīng)網(wǎng)絡的參數(shù)為θα={Wc,We,θσ},將θα+η1L′1賦值給θα,從而更新θα,用于對所述多模態(tài)循環(huán)網(wǎng)絡的訓練,其中,η1表示所述多模態(tài)循環(huán)神經(jīng)網(wǎng)絡的學習速率;
步驟3、將另一幅輸入圖片Ig輸入所述多模態(tài)循環(huán)神經(jīng)網(wǎng)絡中,得到最終的目標描述語句,并去掉最終目標描述語句中所有停詞,將去除停詞后的目標描述語句映射為漢語關鍵詞K={k1,...,kt,...,kL},kt表示所述輸入圖片Ig的第t個漢語關鍵詞,t=1,2,…,L,L>1;
步驟4、利用長短期記憶網(wǎng)絡建立漢語古詩生成模型并進行訓練,從而實現(xiàn)圖像到漢語古詩的轉換,并生成對應的漢語古詩;
步驟4.1、定義歷史詩句H為第1到第t-1行詩句,并初始化歷史詩句H為零,初始化t=1;
步驟4.2、利用熱編碼方法將所述輸入圖片Ig的第t個漢語關鍵詞kt及所述歷史詩句H分別映射至向量空間Ψ中,得到第t個漢語關鍵詞kt的向量及所述歷史詩句H的向量其中,表示所述輸入圖片Ig的第t個漢語關鍵詞kt的第d個字符的向量,表示所述歷史詩句H中的第λ個字符的向量;
利用長短期記憶網(wǎng)絡分別將第t個漢語關鍵詞kt的向量和所述歷史詩句H的向量編碼為向量和
步驟4.3、當t=1且τ=1時,均值初始化所述輸入圖片Ig的第t行詩句中第τ-1個字符的概率分布和第τ-1個字符的狀態(tài)向量rτ-1;τ表示第t行詩句中字符的個數(shù);
步驟4.4、利用式(6)得到所述輸入圖片Ig的第t行詩句中第τ個字符的概率分布從而得到所述輸入圖片Ig的第t行詩句中所有字符的概率分布作為漢語古詩生成模型:
式(6)中,θβ為所設定的參數(shù),rτ為第τ個字符的狀態(tài)向量,并通過式(7)獲得:
式(7)中,f()表示長短期記憶網(wǎng)絡的內部激活函數(shù);
步驟4.5、從所述輸入圖片Ig的第t行詩句第τ個字符的概率分布中選取概率最大的字符作為所述輸入圖片Ig的第t行詩句的第τ個字符,從而得到所述輸入圖片Ig的第t行詩句;
步驟4.6、將t+1賦值給t,并返回步驟4.2,直到t>L為止,從而生成所述輸入圖片Ig的漢語古詩;
步驟4.7、利用如式(8)得到損失函數(shù)L2(q):
式(8)中,M為從所述詩集數(shù)據(jù)集Q中選取的任意一批漢語古詩的大小,表示每次訓練迭代時的漢語古詩數(shù)量,且M<n;q表示每次訓練迭代的M首漢語古詩集合,表示任意一批漢語古詩中第ε首漢語古詩第t行詩句的第τ個字符輸入所述漢語古詩生成模型中得到的模型概率分布,表示任意一批漢語古詩中第ε首漢語古詩第t行詩句的第τ個字符經(jīng)過熱編碼處理后得到的期望概率分布;
步驟4.8、采用均方根傳播算法對所述損失函數(shù)L2(q)進行最小化處理,得到所述損失函數(shù)L2(q)的導數(shù)L′2;將θβ+η2L′2賦值給θβ,從而更新θβ,用于對所述漢語古詩生成模型進行訓練,其中,η2表示所述漢語古詩生成模型的學習速率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業(yè)大學,未經(jīng)合肥工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711064401.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡轉換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質
- 學習神經(jīng)網(wǎng)絡結構
- 脈沖神經(jīng)網(wǎng)絡轉換方法及相關轉換芯片
- 圖像處理方法、裝置、可讀存儲介質和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調方法、系統(tǒng)、終端和存儲介質
- 用于重構人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結構的優(yōu)化方法及裝置
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





