[發(fā)明專利]用于視覺(jué)問(wèn)答的系統(tǒng)和方法有效
| 申請(qǐng)?zhí)枺?/td> | 201610952620.4 | 申請(qǐng)日: | 2016-11-02 |
| 公開(kāi)(公告)號(hào): | CN106649542B | 公開(kāi)(公告)日: | 2020-06-16 |
| 發(fā)明(設(shè)計(jì))人: | 陳侃;王江;徐偉 | 申請(qǐng)(專利權(quán))人: | 百度(美國(guó))有限責(zé)任公司 |
| 主分類號(hào): | G06F16/583 | 分類號(hào): | G06F16/583;G06F16/9032;G06K9/62 |
| 代理公司: | 北京英賽嘉華知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11204 | 代理人: | 王達(dá)佐;王艷春 |
| 地址: | 美國(guó)加利*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 視覺(jué) 問(wèn)答 系統(tǒng) 方法 | ||
1.一種改進(jìn)對(duì)問(wèn)題輸入生成的答案的準(zhǔn)確性的計(jì)算機(jī)實(shí)施的方法,其中,所述問(wèn)題輸入與圖像輸入相關(guān),所述方法包括:
接收所述圖像輸入;
接收與所述圖像輸入相關(guān)的所述問(wèn)題輸入;
將所述問(wèn)題輸入和所述圖像輸入輸入到基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架中以生成答案,所述基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架包括:
圖像特征圖提取組件,包括從所述圖像輸入提取圖像特征圖的卷積神經(jīng)網(wǎng)絡(luò);
語(yǔ)義問(wèn)題嵌入組件,從所述問(wèn)題輸入獲得問(wèn)題嵌入;
經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖生成組件,接收所述圖像特征圖和所述問(wèn)題嵌入,并且獲得集中于所述問(wèn)題輸入所詢問(wèn)的區(qū)域的經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖;以及
答案生成組件,通過(guò)使用所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖加權(quán)所述圖像特征圖,獲得經(jīng)關(guān)注加權(quán)的圖像特征圖,并且基于所述圖像特征圖、所述問(wèn)題嵌入和所述經(jīng)關(guān)注加權(quán)的圖像特征圖的融合來(lái)生成答案。
2.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述語(yǔ)義問(wèn)題嵌入組件包括長(zhǎng)短期存儲(chǔ)器層以生成所述問(wèn)題嵌入來(lái)表征所述問(wèn)題輸入的語(yǔ)義含義。
3.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖生成組件包括可配置的卷積內(nèi)核,所述可配置的卷積內(nèi)核通過(guò)將所述問(wèn)題嵌入從語(yǔ)義空間投影到視覺(jué)空間而產(chǎn)生,并用于與所述圖像特征圖卷積以產(chǎn)生所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖。
4.如權(quán)利要求3所述的計(jì)算機(jī)實(shí)施的方法,其中,所述卷積內(nèi)核具有與所述圖像特征圖相同數(shù)量的通道。
5.如權(quán)利要求3所述的計(jì)算機(jī)實(shí)施的方法,其中,所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖具有與所述圖像特征圖相同的大小。
6.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述圖像特征圖通過(guò)將所述圖像輸入分成多個(gè)網(wǎng)格并在所述網(wǎng)格的每個(gè)單元中提取D維特征向量來(lái)提取。
7.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述圖像特征圖被所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖在空間上加權(quán),以獲得所述經(jīng)關(guān)注加權(quán)的圖像特征圖。
8.如權(quán)利要求7所述的計(jì)算機(jī)實(shí)施的方法,其中,所述在空間上加權(quán)通過(guò)在所述圖像特征圖和所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖的每個(gè)通道之間的按元素的乘積實(shí)現(xiàn)。
9.如權(quán)利要求8所述的計(jì)算機(jī)實(shí)施的方法,其中,所述在空間上加權(quán)還通過(guò)用于空間上的關(guān)注分布的Softmax歸一化來(lái)限定。
10.如權(quán)利要求1所述的計(jì)算機(jī)實(shí)施的方法,其中,所述基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架利用隨機(jī)梯度下降以端對(duì)端的方式來(lái)預(yù)訓(xùn)練。
11.如權(quán)利要求10所述的計(jì)算機(jī)實(shí)施的方法,其中,所述基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架具有初始權(quán)重,所述初始權(quán)重預(yù)訓(xùn)練期間被隨機(jī)地調(diào)整為確保所述基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架內(nèi)所有層的激活的每個(gè)維度具有0均值和一個(gè)標(biāo)準(zhǔn)導(dǎo)數(shù)。
12.一種對(duì)圖像相關(guān)的問(wèn)題生成答案的計(jì)算機(jī)實(shí)施的方法,所述方法包括以下步驟:
使用深層卷積神經(jīng)網(wǎng)絡(luò)從包括多個(gè)像素的輸入圖像提取圖像特征圖;
使用長(zhǎng)短期存儲(chǔ)器層從與所述輸入圖像相關(guān)的輸入問(wèn)題中獲得密集問(wèn)題嵌入;
通過(guò)將所述密集問(wèn)題嵌入從語(yǔ)義空間投影到視覺(jué)空間來(lái)產(chǎn)生多個(gè)經(jīng)問(wèn)題配置的內(nèi)核;
將所述經(jīng)問(wèn)題配置的內(nèi)核與所述圖像特征圖卷積以生成經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖;
通過(guò)使用所述經(jīng)問(wèn)題引導(dǎo)的關(guān)注圖在空間上加權(quán)所述圖像特征圖,在多類別分類器處獲得經(jīng)關(guān)注加權(quán)的圖像特征圖,所述經(jīng)關(guān)注加權(quán)的圖像特征圖降低與所述輸入問(wèn)題不相關(guān)的區(qū)域的權(quán)重;以及
基于所述圖像特征圖、所述密集問(wèn)題嵌入和所述經(jīng)關(guān)注加權(quán)的圖像特征圖的融合對(duì)所述輸入問(wèn)題生成答案。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度(美國(guó))有限責(zé)任公司,未經(jīng)百度(美國(guó))有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610952620.4/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于生成動(dòng)態(tài)幫助文檔的方法和系統(tǒng)
- 建立問(wèn)答文本評(píng)價(jià)模型與評(píng)價(jià)問(wèn)答文本的方法、裝置
- 基于學(xué)生問(wèn)答方式的在線教育系統(tǒng)
- 一種問(wèn)答輸入的智能提示方法、裝置和終端設(shè)備
- 一種通用的智能問(wèn)答自動(dòng)化運(yùn)維系統(tǒng)及方法
- 自動(dòng)問(wèn)答方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種基于知識(shí)圖譜的智能問(wèn)答引擎及其實(shí)現(xiàn)方法
- 基于人工智能技術(shù)的類腦問(wèn)答系統(tǒng)
- 一種基于語(yǔ)義分析技術(shù)的專業(yè)制度檔案問(wèn)答機(jī)器人系統(tǒng)
- 一種視覺(jué)問(wèn)答方法、系統(tǒng)及服務(wù)器





