[發(fā)明專利]一種基于非成對學習的圖像描述自動評價方法有效
| 申請?zhí)枺?/td> | 202010054911.8 | 申請日: | 2020-01-17 | 
| 公開(公告)號: | CN111291558B | 公開(公告)日: | 2023-05-02 | 
| 發(fā)明(設計)人: | 趙仲秋;孫月林 | 申請(專利權(quán))人: | 合肥工業(yè)大學 | 
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06N3/0442;G06N3/0464 | 
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 | 
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 | 
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 成對 學習 圖像 描述 自動 評價 方法 | ||
本發(fā)明公開了一種基于非成對學習的圖像描述自動評價方法,其步驟包括:1、提取被描述圖像的視覺特征;2、描述語句的預處理和文本特征提取;3、基于圖像特征和文本特征進行語義一致性評價;4、構(gòu)建額外人工語句語料庫;5、利用額外人工語句語料庫對待評價描述文本進行語法正確性評價;6、對語義一致性得分和語法正確性得分進行融合,得到綜合得分;7、對圖像描述生成模型的評價。本發(fā)明能脫離參考描述語句,通過直接與圖像特征的直接匹配和根據(jù)從額外語料庫中習得的人類描述習慣,從語義一致性和語法正確性兩方面對圖像描述語句質(zhì)量進行評價,從而能更靈活可靠地對風格化的圖像描述語句質(zhì)量進行評價。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像描述評價領(lǐng)域,具體的說是一種基于非成對學習的圖像描述自動評價方法。
背景技術(shù)
隨著科研領(lǐng)域?qū)τ嬎銠C視覺與自然語言處理相結(jié)合領(lǐng)域的興趣逐漸升溫,圖像描述任務獲得了一定的關(guān)注。圖像描述任務即根據(jù)圖像的內(nèi)容,為圖像生成相應的自然語言描述,實現(xiàn)從圖像到語言的映射。然而,人工描述具有工作量大、成本高、主觀性強等缺點,因而,需要利用計算機及相關(guān)算法和技術(shù),在對圖像內(nèi)容準確分析的基礎上,實現(xiàn)自動圖像描述。隨著神經(jīng)網(wǎng)絡的高速發(fā)展和注意力機制的引入,自動圖像描述模型已經(jīng)在BLEU、ROUGE、METEOR、CIDEr等傳統(tǒng)指標上取得了很高的分數(shù)。近幾年,關(guān)于圖像描述的一部分研究焦點從進一步提升描述準確性轉(zhuǎn)向了生成風格化的圖像描述,例如可以進行幽默風格和浪漫風格圖像描述的SemNet、SemStyle模型;可以進行看圖寫詩的微軟小冰等。
傳統(tǒng)的圖像描述自動評價方法大多是基于對待評價的候選句和數(shù)據(jù)集給出的參考句之間的N元組共現(xiàn)的統(tǒng)計進行的。BLEU和METEOR指標引入自機器翻譯任務,BLEU是對候選句和參考句中共同出現(xiàn)的N元子句出現(xiàn)次數(shù)的加權(quán)平均精度統(tǒng)計,而METEOR在此基礎上添加了召回率的考量,計算候選句和參考句之間的單精度和單字召回率的加權(quán)調(diào)和平均數(shù),此外,METEOR還通過最小化對應語句中連續(xù)有序塊來進行了同義詞匹配校準;ROUGE指標是引入自文本摘要任務的基于候選句和參考句間最大長度公共子序列召回率的相似性度量方法;CIDEr將TF-IDF權(quán)重應用到候選句與參考句的N元重疊上,并計算它們的N元余弦距離和。SPICE提出了一種新的評估圖像描述的計算方法,即將候選句和參考句轉(zhuǎn)換到同一個場景圖中,并在過程中對圖像字幕的主要特征進行編碼,以及提取自然語言的大部分詞匯和句法特征。為更加貼合人類評價和規(guī)避這些基于規(guī)則的方法的盲點,Yin等人提出了一種基于學習的圖像描述自動評價方法,更貼合人類評價的同時,它適用于定義過的一些病句情形。
在實際應用中,雖然現(xiàn)有評價指標能一定程度上衡量候選句質(zhì)量,但現(xiàn)有的圖像描述評價指標仍存在以下問題:
(1)基于N元組共現(xiàn)的評價方法主要考察候選句的充分性和忠實性,無法對流暢性進行考量,且無法從語法語義上對病句進行判別,并不符合人類在判別兩個語句語義是否一致時的習慣。
(2)N元重疊的方式很難對語句的語義進行捕捉,SPICE雖然對語義敏感,卻依然存在忽略語法正確性的傾向,且SPICE還存在傾向?qū)Π貜妥泳涞拈L句打出高分的問題。
(3)Yin等人雖然提出了基于學習的評價方式,但與原有的基于規(guī)則的方法們一樣,存在依賴于與有限的數(shù)據(jù)集給定參考句進行對比的問題。這些參考句風格固定甚至單調(diào),無法覆蓋到圖像中所有可能被感興趣的信息。因此,基于與此種參考句對比的現(xiàn)有評價指標并不能很好地對風格化的圖像描述進行靈活的評價。
發(fā)明內(nèi)容
本發(fā)明是為了解決上述現(xiàn)有技術(shù)存在的不足之處,提出一種基于非成對學習的圖像描述自動評價方法,以期能脫離數(shù)據(jù)集中刻板的參考描述語句,直接將待評價描述語句和圖像特征進行匹配,得到描述語句與對應圖像的語義一致性評價,并通過從額外的風格化語料庫學習人工描述語言習慣,得到描述語句相對于人工描述的語法正確性評價,從而能更貼近人工評價習慣地對圖像描述語句質(zhì)量進行評價,并能更靈活且可靠地對風格化的圖像描述語句質(zhì)量進行評價。
本發(fā)明為達到上述發(fā)明目的,采用如下技術(shù)方案:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥工業(yè)大學,未經(jīng)合肥工業(yè)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010054911.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
 - 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
 - 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
 - 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
 - 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
 - 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
 - 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
 - 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
 - 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
 - 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
 





