[發(fā)明專利]一種基于詞性先驗信息的圖像字幕生成技術(shù)在審
| 申請?zhí)枺?/td> | 202011610671.1 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112800753A | 公開(公告)日: | 2021-05-14 |
| 發(fā)明(設(shè)計)人: | 彭德中;秦晨杰;劉培;王騫;王煒;溫序銘 | 申請(專利權(quán))人: | 四川大學;成都索貝數(shù)碼科技股份有限公司 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253;G06N3/04;G06N3/08 |
| 代理公司: | 北京盛凡智榮知識產(chǎn)權(quán)代理有限公司 11616 | 代理人: | 林淡如 |
| 地址: | 610000 四*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞性 先驗 信息 圖像 字幕 生成 技術(shù) | ||
本文提出了一種新穎的分層詞性神經(jīng)網(wǎng)絡(luò)(HPOS?ANN),利用POS先驗條件(POS分布)在字幕生成過程中幫助提取視覺信息。主要有三大貢獻:1.我們提出了一種分層的詞性注意神經(jīng)網(wǎng)絡(luò)(HPOS?ANN),其中POS先驗可用于幫助在單詞生成的每個時間步提取視覺信息。2.我們提出了一種提取POS先驗的新方法,該方法旨在直接將標題詞的POS與不同種類的特征相關(guān)聯(lián)。3.我們對圖像字幕基準數(shù)據(jù)集MS COCO進行了綜合評估,證明了該方法在大多數(shù)指標上均優(yōu)于幾種當前的最新技術(shù),以及提出的HPOSANN是否有助于字幕生成任務(wù)。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機自然語言領(lǐng)域,特別涉及一種用于圖像字幕的 方法。
背景技術(shù)
圖像字幕的目的是通過計算機自動給定圖像的自然語言描述,該 計算機位于兩個當前流行的研究領(lǐng)域(即計算機視覺(CV)和自然語 言過程(NLP)。這項技術(shù)已廣泛應(yīng)用于我們的現(xiàn)實生活中,例如 為圖像檢索和索引提供說明性標題,通過將視覺信號轉(zhuǎn)換為可以通過 文本語音轉(zhuǎn)換技術(shù)傳達的信息來幫助有視覺障礙的人們。通常,大多 數(shù)字幕方法都采用編解碼器框架,其中編碼器采用卷積神經(jīng)網(wǎng)絡(luò)(CNN) 提取視覺特征作為圖像特征表示,而解碼器通常采用遞歸神經(jīng)網(wǎng)絡(luò) (RNN或基于注意力的神經(jīng)網(wǎng)絡(luò)(例如Transformer)將視覺特征轉(zhuǎn) 換為靈活的長度序列。當前,許多研究傾向于在其方法中采用更豐富 的圖像表示方法,以便在生成的字幕中提供更多細節(jié)。受到最近CV 取得的成就的啟發(fā),可以使用結(jié)構(gòu)表示方法(即場景圖)來表示輸入 圖像,在該方法中,三種局部視覺特征(對象特征,屬性特征和關(guān)系 特征)分別為包括為節(jié)點,而每個節(jié)點對的連接為邊。與使用對象 特征的特征表示相比,特征表示方法的場景圖包含附加的屬性特征和 關(guān)聯(lián)特征,這兩種視覺特征可以提供信息支持,以在字幕中生成更準 確的描述性詞和謂詞,這也是像以前的許多研究所證明的那樣。在字 幕處理過程中從場景圖中提取所需的視覺信息是一個挑戰(zhàn),大多數(shù)最新技術(shù)傾向于不加區(qū)別地對待這三種節(jié)點,即將這三種特征節(jié)點連接 到首先使用一個特征集,然后使用注意力模塊來提取所需的信息特征, 但是隨著特征節(jié)點數(shù)量的增加,正確地獲取和提取所需的視覺信息變 得更加困難。這部分是由于在視覺信息提取過程中忽略了單詞POS 與特征類型之間的關(guān)系的重要性,換句話說,當生成具有不同POS的 單詞時,應(yīng)為這些不同類型的特征分配不同的關(guān)注權(quán)重。
發(fā)明內(nèi)容
本發(fā)明使POS先驗參與字幕生成的視覺信息提取過程,這是受單 詞POS與場景中節(jié)點類型之間關(guān)系的啟發(fā)圖,即具有不同POS的單詞 可以直接從相應(yīng)的特征中得出。例如,賓語表示標題中提到的賓語, 例如“cat”,“car”,可以從賓語特征中獲取,而描述性單詞,如 “red”,“colorful”,可以從屬性中獲取特征,以及諸如 “standing”,“walking”之類的關(guān)系詞可以通過關(guān)系特征來實現(xiàn), 而某些虛擬詞代僅依靠語言模塊本身而不是外部視覺特征,例如 “the”,“of”。這也在工作中討論。基于上述直覺,我們提出 了一種新穎的方法,可以在單詞生成的每個時間步驟中將POS先驗合 并到視覺信息提取過程中。在我們的工作中,我們提出了一種新的方 法來預測字幕詞的詞性(POS)先驗,并提出了一種分層的詞性注意 神經(jīng)網(wǎng)絡(luò)(HPOS-ANN)來將POS先驗納入字幕生成過程。具體來說, 先驗POS先通過新引入的POS模塊采用字幕模型的隱藏狀態(tài)產(chǎn) 生.HPOS-ANN由兩層網(wǎng)絡(luò)組成,其中底層負責從三個網(wǎng)絡(luò)中提取三個 臨時有人參與的特征多種功能,而玩家則將POS先驗信息納入權(quán)重計 算過程,并輸出組合后的功能以生成單詞。
本文的貢獻在于以下三個方面:
a.提出了一種分層的詞性注意神經(jīng)網(wǎng)絡(luò)(HPOS-ANN),其中POS 先驗可用于幫助在單詞生成的每個時間步提取視覺信息。
b.提出了一種提取POS先驗的新方法,該方法旨在直接將標題詞 的POS與不同種類的特征相關(guān)聯(lián)。
c.對圖像字幕基準數(shù)據(jù)集MS COCO進行了綜合評估,證明了該方 法在大多數(shù)指標上均優(yōu)于幾種當前的最新技術(shù),以及提出的HPOSANN 是否有助于字幕生成任務(wù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學;成都索貝數(shù)碼科技股份有限公司,未經(jīng)四川大學;成都索貝數(shù)碼科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011610671.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





