[發明專利]具備跨語言學習能力的圖像自然語言描述生成方法和裝置有效
| 申請號: | 201710657104.3 | 申請日: | 2017-08-03 |
| 公開(公告)號: | CN107480144B | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 李錫榮;藍瑋毓;董建鋒 | 申請(專利權)人: | 中國人民大學 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253;G06F40/58;G06K9/62 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 楊澤;劉芳 |
| 地址: | 100872 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 具備 語言 學習 能力 圖像 自然語言 描述 生成 方法 裝置 | ||
本發明提供一種具備跨語言學習能力的圖像自然語言描述生成方法和裝置,該方法,包括:將英文描述句子通過機器翻譯為目標語言描述句子;通過隨機采樣選取部分目標語言描述句子構成訓練樣本集;利用通順樣本集和不通順樣本集訓練句子通順度模型;通過句子通順度模型對候選數據集中的目標語言描述句子進行通順度評估,根據每個目標語言描述句子的通順度概率來設置訓練圖像描述句子生成模型的策略;根據策略訓練圖像描述句子生成模型,得到訓練之后的圖像描述句子生成模型。實現依據流暢度評估結果引導訓練生成目標語言的圖像句子生成模型,降低了不流暢目標語言描述句子對訓練過程的影響,提高了目標語言的圖像句子生成模型的準確度。
技術領域
本發明涉及圖像識別技術領域,尤其涉及一種具備跨語言學習能力的圖像自然語言描述生成方法和裝置。
背景技術
看圖造句(Image captioning)是指給定一張圖片,計算機自動產生一個能夠描述對應圖片主要視覺內容的自然語句。該自然語句用于描述對應圖片中主要物體在特定場景中的特定行為。圖像的描述句子相比傳統的圖像描述標簽可以包含更多的語義信息,有助于對圖像數據進行更好的管理。
但是,目前大型的圖像集的描述句子一般采用英語來描述,當涉及到跨語言圖像描述時,需要采用人工標注的方式為目標語言采集相應語種的訓練數據,或者通過翻譯機器將英文描述句子翻譯為目標語言描述句子,這些方法的運行成本高,圖像語言描述的效率低,可讀性差。
發明內容
本發明提供一種具備跨語言學習能力的圖像自然語言描述生成方法和裝置,以實現依據流暢度評估結果引導訓練生成目標語言的圖像句子生成模型,降低了不流暢目標語言描述句子對訓練過程的影響,提高了目標語言的圖像句子生成模型的準確度。
第一方面,本發明實施例提供一種具備跨語言學習能力的圖像自然語言描述生成方法,包括:
獲取圖像集對應的英文描述句子;
將所述英文描述句子通過機器翻譯為目標語言描述句子,其中,機器翻譯產生的所有目標語言描述句子構成目標語言的候選數據集;
從所述候選數據集中通過隨機采樣選取部分目標語言描述句子,所述部分目標語言描述句子構成訓練樣本集;
根據所述目標語言的語法和使用習慣,通過人工標注方式,將所述訓練樣本集分為通順樣本集和不通順樣本集;
利用所述通順樣本集和所述不通順樣本集訓練句子通順度模型,所述句子通順度模型用于評估所述候選數據集中每個目標語言描述句子的通順度;
通過所述句子通順度模型對所述候選數據集中的目標語言描述句子進行通順度評估,得到每個目標語言描述句子的通順度概率;
根據每個目標語言描述句子的通順度概率來設置訓練圖像描述句子生成模型的策略;
根據所述策略訓練所述圖像描述句子生成模型,得到訓練之后的圖像描述句子生成模型;其中,目標語言描述句子的通順度概率越高則在訓練過程中對應的權重越大。
可選地,所述分別利用所述通順樣本集和所述不通順樣本集訓練句子通順度模型,包括:
利用所述通順樣本集和所述不通順樣本集訓練至少一個長短期記憶網絡LSTM分類器;其中:
所述LSTM分類器用于順次接收所述目標語言描述句子的詞序列中的詞或者詞性標簽序列中的標簽,并輸出所述目標語言描述句子的通順度概率;和/或順次接收所述英文語言描述句子的詞序列中的詞或者詞性標簽序列中的標簽,并輸出所述英文語言描述句子的通順度概率。
可選地,所述利用所述通順樣本集和所述不通順樣本集訓練至少一個長短期記憶網絡LSTM分類器,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民大學,未經中國人民大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710657104.3/2.html,轉載請聲明來源鉆瓜專利網。





