[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的語言評(píng)價(jià)生成方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910794996.0 | 申請(qǐng)日: | 2019-08-27 |
| 公開(公告)號(hào): | CN110532555B | 公開(公告)日: | 2022-12-13 |
| 發(fā)明(設(shè)計(jì))人: | 金鑫;周興暉;吳樂;李曉東 | 申請(qǐng)(專利權(quán))人: | 北京電子科技學(xué)院 |
| 主分類號(hào): | G06F40/279 | 分類號(hào): | G06F40/279;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 北京科迪生專利代理有限責(zé)任公司 11251 | 代理人: | 安麗 |
| 地址: | 100080*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 語言 評(píng)價(jià) 生成 方法 | ||
本發(fā)明提出了一種基于強(qiáng)化學(xué)習(xí)的語言評(píng)價(jià)方法,此方法利用了CIDEr評(píng)價(jià)標(biāo)準(zhǔn)(Consensus?based Image Description Evaluation)進(jìn)行判斷優(yōu)化學(xué)習(xí)的策略。本發(fā)明借鑒基礎(chǔ)的強(qiáng)化學(xué)習(xí)算法用以訓(xùn)練網(wǎng)絡(luò):通過自引導(dǎo)序列算法,使用貪婪搜索的策略,將搜索的最終結(jié)果作為強(qiáng)化學(xué)習(xí)算法中的基線,使得算法生成的結(jié)果接近貪婪搜索結(jié)果。該方法引入了自引導(dǎo)序列算法,同時(shí)也對(duì)傳統(tǒng)編碼器與解碼器框架進(jìn)行了優(yōu)化,其中用于生成語言評(píng)價(jià)的解碼器單元,使用了帶注意力機(jī)制的長短期記憶網(wǎng)絡(luò)。綜合這兩個(gè)改進(jìn),此方法在美學(xué)評(píng)論生成任務(wù)中取得了較好的效果。
技術(shù)領(lǐng)域
本發(fā)明屬于可視計(jì)算、計(jì)算機(jī)視覺領(lǐng)域,具體涉及一種基于強(qiáng)化學(xué)習(xí)的語言評(píng)價(jià)生成方法。
背景技術(shù)
基于強(qiáng)化學(xué)習(xí)的語言評(píng)價(jià)生成可用于可視計(jì)算領(lǐng)域中,作為圖像的屬性的一部分,給圖像的推薦系統(tǒng)提供更多的應(yīng)用前景。
目前語言評(píng)價(jià)生成方法可以被粗略的分為卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)兩類。其中卷積神經(jīng)網(wǎng)絡(luò)直接使用神經(jīng)網(wǎng)絡(luò)提取圖像特征,用得到的圖像特征與已知的語言評(píng)價(jià)進(jìn)行配對(duì)預(yù)測,最終生成語言評(píng)價(jià)?;谶f歸神經(jīng)網(wǎng)絡(luò)較為復(fù)雜,可先對(duì)神經(jīng)網(wǎng)絡(luò)提取圖像特征,再用遞歸神經(jīng)網(wǎng)絡(luò)依次預(yù)測生成的詞匯。與卷積神經(jīng)網(wǎng)絡(luò)相比,遞歸神經(jīng)網(wǎng)絡(luò)具有兩個(gè)特點(diǎn):(1)生成的語言評(píng)價(jià)更為具體詳細(xì),符合語法規(guī)范;(2)算法更為復(fù)雜,需要其他方法用以輔助實(shí)施。
常見的輔助遞歸神經(jīng)網(wǎng)絡(luò)的算法有注意力機(jī)制、雙向長短期記憶網(wǎng)絡(luò)、門控記憶單位等,而這些方法被廣泛應(yīng)用于評(píng)價(jià)生成的任務(wù)中。然而對(duì)于特定的美學(xué)評(píng)價(jià),需要使用能決定推薦詞匯的算法,因此上述的方法不再適用。因此本發(fā)明使用了強(qiáng)化學(xué)習(xí)的技巧。
強(qiáng)化學(xué)習(xí)可以利用自引導(dǎo)序列算法對(duì)生成的語言評(píng)價(jià)提供概率最大的推薦詞匯,利用行動(dòng)者評(píng)價(jià)者學(xué)習(xí)技巧,尋找當(dāng)前最優(yōu)的詞匯選擇策略。因此,提出一種基于強(qiáng)化學(xué)習(xí)的語言評(píng)價(jià)生成方法是非常必要的。之前的發(fā)明中進(jìn)行語言評(píng)價(jià)生成時(shí)效果不佳。
將強(qiáng)化學(xué)習(xí)運(yùn)用在語言評(píng)價(jià)生成上目前的方法目前有一下三篇論文:第一篇:FAIR在ICLR(International Conference on Learning Representations)2015發(fā)表的文章《Sequence level training with recurrent neural networks》,主要方法是使用最大似然方法進(jìn)行預(yù)訓(xùn)練,然后用強(qiáng)化學(xué)習(xí)進(jìn)行遞歸神經(jīng)網(wǎng)絡(luò)模型的遷移學(xué)習(xí),同時(shí)在計(jì)算決策函數(shù)時(shí),未使用任何圖像的實(shí)際標(biāo)注信息。第二篇是Rennie、Steven J等人在CVPR(IEEEConference on Computer Vision and Pattern Recognition)2016上發(fā)表的文章《Self-critical Sequence Training for Image Captioning》,文章引入貪心搜索算法,將強(qiáng)化學(xué)習(xí)中策略函數(shù)的基線提高到了更高的水平,并因此獲得了一定的進(jìn)步。第三篇仍然是Steven J、Rennie等人的著作,發(fā)表在CVPR(IEEE Conference on Computer Vision andPattern Recognition)2019的文章《Self-critical Sequence Training for ImageCaptioning》,文章使用了模型在測試過程中生成的句子作為基線,以提高生成詞匯的質(zhì)量。
本發(fā)明與上述方法的區(qū)別在于,本發(fā)明通過利用自引導(dǎo)序列算法,同時(shí)加入行動(dòng)者評(píng)價(jià)者學(xué)習(xí)技巧,對(duì)語言評(píng)價(jià)中每個(gè)詞匯的產(chǎn)生提出了更高的基線模型。上述現(xiàn)有技術(shù)缺乏對(duì)數(shù)據(jù)集的評(píng)論的依賴,在進(jìn)行測試時(shí)依賴模型生成的單詞,而受數(shù)據(jù)集的實(shí)際標(biāo)注信息的影響較小,因此生成的評(píng)論質(zhì)量往往較差。本發(fā)明的優(yōu)點(diǎn)在于自引導(dǎo)序列算法可較好的擬合數(shù)據(jù)集的實(shí)際標(biāo)注信息,可較好的指導(dǎo)并輸出語言評(píng)價(jià)。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題為:克服現(xiàn)有技術(shù)的不足,提供一種基于強(qiáng)化學(xué)習(xí)的語言評(píng)價(jià)生成方法,該方法能夠有效的提供最優(yōu)的詞匯選擇策略,指導(dǎo)語言評(píng)價(jià)生成,大幅度提高美學(xué)評(píng)論生成任務(wù)中語言評(píng)價(jià)的質(zhì)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京電子科技學(xué)院,未經(jīng)北京電子科技學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910794996.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)
- 自動(dòng)檢測文件中搭配錯(cuò)誤的系統(tǒng)和方法
- 網(wǎng)絡(luò)連接裝置及網(wǎng)絡(luò)連接裝置的語言環(huán)境設(shè)定方法
- 一種口語評(píng)測方法及裝置
- 一種語言設(shè)置方法及移動(dòng)終端
- 一種語言文本加載方法和裝置
- 一種語言交流人工智能系統(tǒng)及其語言處理方法
- 語言序列標(biāo)注方法、裝置存儲(chǔ)介質(zhì)及計(jì)算機(jī)設(shè)備
- 一種基于語言包實(shí)現(xiàn)繼電保護(hù)裝置多語言版本方法及裝置
- 一種應(yīng)用軟件的多語言核對(duì)方法及系統(tǒng)
- 多語言字幕顯示方法、裝置、終端設(shè)備及存儲(chǔ)介質(zhì)





