[發明專利]一種基于改進的生成式對抗網絡的圖像語句轉換方法在審
| 申請號: | 201710598010.3 | 申請日: | 2017-07-20 |
| 公開(公告)號: | CN107392147A | 公開(公告)日: | 2017-11-24 |
| 發明(設計)人: | 蔡強;薛子育;毛典輝;李海生;祝曉斌 | 申請(專利權)人: | 北京工商大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 北京科迪生專利代理有限責任公司11251 | 代理人: | 安麗 |
| 地址: | 100048*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 生成 對抗 網絡 圖像 語句 轉換 方法 | ||
技術領域
本發明總的涉及圖像識別技術和句法生成技術領域,具體涉及一種基于改進的生成式對抗網絡的圖像語句轉換方法。
背景技術
隨著科技的發展,互聯網的普及給人們帶來了巨大的信息資源。文字信息是互聯網發展初期的主要途徑,相比文字信息的單一性,圖像和視頻等多媒體信息,富含有更多的知識,是一種更為清晰的、更符合人類理解方式的信息載體。隨著計算機存儲空間和計算效率的不斷提升,圖像、音頻、視頻等各類信息大量涌現于各類網站之中,并以驚人的速度迅猛增長。Instagram等應用軟件單日圖片共享量高達8000萬幅,并將逐年成倍增加。
隨著多媒體數據逐漸成為互聯網中的主要信息載體,難題隨之出現。當信息由文字記載時,可以通過關鍵詞搜索,輕易找到所需內容并進行任意編輯,而當信息是由多媒體數據記載時,將無法對數據中的內容進行檢索,從而影響了從數據中找到關鍵內容的效率。多媒體數據在帶來快捷的信息記錄和分享方式的同時,降低了信息檢索效率。多媒體數據含有豐富的語義知識,隨著信息數量和種類的不斷擴大,獲取多媒體數據的語義知識,形成“數據-知識”相互驅動的體系逐漸成為了研究重點。
圖像語義分析是一種以圖像為對象,知識為核心,研究圖像中目標的位置信息、場景之間相互關系以及場景應用的一門科學。圖像語義分析輸入的是數據,輸出的是知識,語義作為知識信息的基本描述載體,能將完整的圖像內容轉換成可直觀理解的類文本語言表達,在圖像理解中起著至關重要的作用。圖像語義分析在圖像搜索引擎、智能數字圖像相冊、虛擬世界視覺場景描述等方面有廣闊的發展前景。流行的圖像語義分析算法主要包括了基于圖像分類、基于圖像詞語轉換、基于圖像句子轉換等。
傳統的基于圖像分類的語義分析主要分為三個步驟,首先提取圖像低層特征,如尺度不變特征變換等算法,然后對特征進行編碼表示,最后利用分類器,如支持向量機等方法,對圖像進行分類,類別信息即為圖像語義信息。
隨著大數據時代的到來,傳統圖像語義分析方法問題逐漸暴露出來。為順應大數據發展趨勢,如斯坦福大學提出的ImageNet等大規模圖像數據集先后發出,并且相關人員都在不斷地擴充該圖像集。相比傳統數據集,大規模圖像數據集在圖像數據規模、類別數量上都有了極大程度上的增加,傳統圖像文字轉換算法中廣為使用的多特征和非線性分類器算法和策略,算法具有的高計算強度和高內存消耗等問題,使其無法適應大數據帶來的沖擊。因此,傳統算法逐漸向深度模型進行轉變。百度研究院的余凱在2012年的計算機視覺與模式識別會議中提出,這種轉變好比“設計特征到設計特征的學習方法”的轉變。相比傳統方法,深度模型不再需要人工提取特征。引入深度模型極大地減少了人工提取特征產生的消耗性問題,將更多的工作放到了算法的設計本身,在很大程度上提升了算法的效率。
圖像文字轉換方法大多利用深度模型進行圖像特征提取和句法生成。基于區域的卷積神經網絡被廣泛應用于圖像的特征提取,方法通過對區域進行劃分,獲取到區域內容,并通過文字進行描述獲取特征,并輸入到句法模型,進行句法生成。遞歸神經網絡是句法生成的常用深度模型,方法設計思路來自于基于多層反饋網絡的翻譯機器,該翻譯機器通過譯碼器讀取源語言的句子,將其轉變為固定長度的向量,通過解碼器將向量輸入到隱層,產生目標語言的句子。方法利用將特征向量進行輸入,利用解碼器進行句子分析。以上方法進行的句子轉換結果單一,不能將特征向量之間的內在關系進行分析,語句輸出結果與實際表述存在一定偏差。
針對以上問題,使用更符合人類表達習慣的句法模型是圖像句子轉換方法中的重要部分。生成式對抗網絡,是一種利用生成器和鑒別器彼此“欺騙”和“否定”,最終產生合理結果的方法。該方法利用生成器不斷地產生利用特征向量進行不同組合的結果,同時鑒別器不斷地鑒別生成結果和語料庫中結果的差別,直到生成結果和語料庫中的句子幾乎一致,則將該生成結果進行輸出。生成式對抗網絡被應用在圖像生成、目標檢測、目標分割等領域,生成器大多利用卷積神經網絡進行圖像生成。據了解,還沒有機構和組織利用長短時記憶模型作為生成式對抗網絡的生成器和鑒別器,并將該方法與基于區域的卷積神經網絡相結合,進行圖像句子轉換的方法和先例。
發明內容
本發明技術解決問題:克服現有技術的不足,提供一種基于改進的生成式對抗網絡的圖像結合轉換方法,以采用具有生成和鑒別能力的句法模型來解決圖像句子轉換中句子表述不連貫的問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工商大學,未經北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710598010.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種兒童坐姿檢測方法及裝置
- 下一篇:一種指紋檢測方法及移動終端





