[發明專利]基于深度學習的圖像意境挖掘與意境轉換中國古詩的方法在審
| 申請號: | 202211624123.3 | 申請日: | 2022-12-15 |
| 公開(公告)號: | CN116127959A | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 高大化;董宇波;李雨嫣;邱添;賀昱;魯永紅 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/58;G06F40/216;G06F16/35 |
| 代理公司: | 西安嘉思特知識產權代理事務所(普通合伙) 61230 | 代理人: | 辛菲 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 圖像 意境 挖掘 轉換 中國 古詩 方法 | ||
本發明提供了一種基于深度學習的圖像意境挖掘與意境轉換中國古詩的方法,接收用戶生成古詩的用戶任務,并從用戶任務中提取用戶提交的目標圖片;將所述目標圖片輸入至預訓練的跨模態詩歌生成器中,為用戶所提交的圖像生成對應的古詩;本發明的基于CNN的圖像特征提取器提取靜態圖像在物體、場景和情感三個方面的特征向量,并與位置編碼相加,作為跨模態詩歌生成器編碼器的輸入,將預訓練單模態語言模型的模型參數導入到跨模態詩歌生成器的解碼器中學習語法信息,以提升跨模態詩歌生成器的生成質量;最后在跨模態圖像?詩歌配對數據集上對跨模態詩歌生成器進行訓練,并通過生成古詩向量與真實古詩向量之間的余弦相似度對生成結果進行評價。
技術領域
本發明屬于深度學習識別與生成技術領域,具體涉及一種基于深度學習的圖像意境挖掘與意境轉換中國古詩的方法。
背景技術
中國古詩是中華傳統文化中的瑰寶,歷史悠久,可以追溯至兩千余年前的《詩經》。作為古代勞動人民記錄事件、抒發情感的主要載體,中國古詩在獨特的歷史文化背景下形成了形神兼備、情景交融的美學追求。《關于實施中華優秀傳統文化傳承發展工程的意見》中指出,傳承中華人文精神是中華優秀傳統文化傳承發展工程的主要內容之一。因此,推廣普及古詩文化有著重要的現實意義。隨著人工智能技術的不斷發展,其在各個領域的應用也如過江之鯽,但跨模態進行圖像生成古詩的相關研究尚且較少,而單模態的古詩生成方法也存在著主題漂移、一致性差、靈活性差、自學習能力差以及沒有自動評價體系等問題。如何從圖像中提取圖像意境信息,并根據意境生成質量更高的中國古詩,是當前研究中的重要難點。
現有的單模態古詩生成方法包括傳統的方法與基于深度學習的方法。傳統的方法包括基于模板的方法、基于模式的方法、基于實例推理的方法、基于遺傳算法的方法、基于摘要生成的方法和基于統計機器翻譯的方法等。基于深度學習的方法包括基于RNN等序列模型生成古詩。
現有的跨模態圖像生成古詩方法包括兩種,第一種是基于人工收集圖像-古詩配對數據集,通過模版匹配的方法根據圖像檢索古詩;第二種主要是從圖像中提取關鍵詞,再以提取到的關鍵詞作為現有的單模態古詩生成方法的輸入信息,該技術方法的主要步驟如下:
1)使用現有的古詩數據集,收集與之匹配的圖片資源,組成配對數據集;
2)使用CNN網絡提取圖像中的主要物體,作為生成古詩的關鍵詞;
3)使用傳統古詩生成方法或RNN模型及其變體LSTM模型作為古詩生成器,將上一步得到的關鍵詞作為輸入信息,使用配對數據集進行訓練;
4)使用訓練好的圖像-古詩生成器為圖像生成古詩,并在BLEU等自然語言處理中常用的指標上進行評價。
現有技術存在以下問題:
1)人工收集圖像-古詩配對數據集沒有統一的匹配標準,存在主觀性,且耗時長,工作量大,難以形成規模較大的數據集;
2)從圖片中生成古詩比從首句或關鍵詞中生成古詩更具有挑戰性,圖像中包含著豐富的視覺信息,如果僅僅采用識別主要景物作為識別關鍵詞的方式,將會丟失大量的信息;
3)傳統的古詩生成方法,如基于模板的方法、基于模式的方法、基于實例推理的方法、基于遺傳算法的方法、基于摘要生成的方法和基于統計機器翻譯的方法等,都非常依賴于模板或數據集,沒有很強的自學習能力,上下文缺乏聯系性,也很難符合基本語法;基于RNN模型生成古詩,相較于傳統方法更加靈活,且擺脫了對人工模板及規則的依賴。但是其也存在一定的問題,受到RNN模型的梯度消失和梯度爆炸現象的限制,隨著生成古詩長度的增加,后文與前文的關聯會越發不緊密,存在主題漂移的問題;
4)BLEU等指標最初是為了評價機器翻譯的結果而發明的。但是,古詩生成任務并不等同于機器翻譯任務,對于一副圖像可能存在多種角度的不同解讀,兩個完全不同的詞語也可能表達相同的意思,例如“翠微”和“青山”都指綠色的山,故BLEU值在古詩生成問題上作為自動評估標準并不合適;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211624123.3/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





