[發(fā)明專利]基于圖像和文本語義相似度的圖像語義消歧方法和裝置有效
| 申請?zhí)枺?/td> | 201810368937.2 | 申請日: | 2018-04-23 |
| 公開(公告)號: | CN108647705B | 公開(公告)日: | 2019-04-05 |
| 發(fā)明(設(shè)計)人: | 李浥東;汪敏;郎叢妍;王濤;馮松鶴;董雅茹 | 申請(專利權(quán))人: | 北京交通大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46;G06F17/27 |
| 代理公司: | 北京市商泰律師事務(wù)所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 待處理圖像 均值向量 相似度 向量 圖像 方法和裝置 圖像查詢 圖像語義 文本語義 標簽 消歧 余弦相似度 處理圖像 圖像翻譯 圖像解釋 圖像內(nèi)容 圖像轉(zhuǎn)換 歧義 錯誤率 多義詞 歧義性 顯著性 融合 標注 文本 轉(zhuǎn)換 | ||
本發(fā)明提供了一種基于圖像和文本語義相似度的圖像語義消歧方法和裝置。該方法包括:將一個多義詞的一個意思用一個均值向量表示,使用圖像顯著性標簽對待處理圖像進行標注,得到待處理圖像的標簽,將待處理圖像的標簽和圖像內(nèi)容轉(zhuǎn)換成向量的形式,得到待處理圖像的融合向量;使用余弦相似度分別計算出待處理圖像的融合向量與每個均值向量之間的相似度,找出相似度最大的均值向量,將該相似性最高的均值向量對應(yīng)的意思確定為待處理圖像的正確解釋。本發(fā)明采用圖像、文本結(jié)合的方法,將圖像轉(zhuǎn)換為向量,解決了圖像翻譯和圖像查詢歧義的問題,并開創(chuàng)性地實現(xiàn)了有效消除圖像歧義性。大大提高了圖像查詢和解釋的準確性,降低了圖像解釋的錯誤率。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像語義消歧技術(shù)領(lǐng)域,尤其涉及一種基于圖像和文本語義相似度的圖像語義消歧方法和裝置。
背景技術(shù)
詞義消歧是計算語言學領(lǐng)域的基礎(chǔ)性關(guān)鍵研究課題,作為一個中間任務(wù),直接關(guān)系到信息檢索、機器翻譯、文本分類、語音識別等語言處理應(yīng)用系統(tǒng)的效率和成敗。多義詞的詞義消歧是為了解決自然語言中同形異義詞語在不同上下文環(huán)境中的義項標注問題。多義詞分布的普遍性決定了多義詞詞義消歧任務(wù)必然成為多種應(yīng)用問題的關(guān)注焦點之一,諸如機器翻譯、信息檢索、自然語言內(nèi)容語義分析、語法分析、語音識別和文語轉(zhuǎn)換。據(jù)統(tǒng)計,在信息檢索中引入部分多義詞消歧技術(shù)以后,可使其整個系統(tǒng)的正確率明顯提高。可見,只要涉及自然語言的計算機應(yīng)用,多義詞的詞義消歧工作就是不可回避的基礎(chǔ)問題。
多義詞的詞義消歧廣泛用于自然語言處理領(lǐng)域:給定詞和它的上下文,就能知道正確的意思,也就是說相同的英文單詞有不同中文意思。然而,圖像依然存在歧義問題。人們在這一方面的研究非常少。現(xiàn)在我們查詢帶有‘a(chǎn)pple’的圖像,就會有多種電腦,手機,還是可以食用的蘋果。這往往會帶給我們不必要的信息。因此,需要一種對圖像的一詞多義進行語義消歧的方法。
發(fā)明內(nèi)容
本發(fā)明的實施例提供了一種基于圖像和文本語義相似度的圖像語義消歧方法和裝置,以實現(xiàn)有效地對圖像的一詞多義進行語義消歧。
為了實現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案。
根據(jù)本發(fā)明的一個方面,提供了一種基于圖像和文本語義相似度的圖像語義消歧方法,將一個多義詞的一個意思用一個均值向量表示,將所有的均值向量,以及每個均值向量對應(yīng)的多義詞的意思關(guān)聯(lián)存儲在均值向量數(shù)據(jù)庫中,所述的方法具體包括:
使用圖像顯著性標簽對待處理圖像進行標注,得到待處理圖像的標簽,并標出待處理圖像的圖像內(nèi)容,將所述待處理圖像的標簽和圖像內(nèi)容轉(zhuǎn)換成向量的形式,得到所述待處理圖像的融合向量;
使用余弦相似度分別計算出所述待處理圖像的融合向量與所述均值向量數(shù)據(jù)庫中的每個均值向量之間的相似度,找出相似度最大的均值向量,將該相似性最高的均值向量對應(yīng)的意思確定為所述待處理圖像的正確解釋。
進一步地,所述的將一個多義詞的一個意思用一個均值向量表示,將所有的均值向量,以及每個均值向量對應(yīng)的多義詞的意思關(guān)聯(lián)存儲在均值向量數(shù)據(jù)庫中,包括:
根據(jù)給定的多義詞查詢WordNet詞典,得到所述多義詞對應(yīng)的所有的詞義和每個詞義對應(yīng)的意思,根據(jù)不同的意思查詢圖像數(shù)據(jù)庫,分別找到每個意思對應(yīng)的圖像,再通過卷積神經(jīng)網(wǎng)絡(luò)的VGG16網(wǎng)絡(luò)結(jié)構(gòu)的fc7特征層得到圖像的特征向量,將所述多義詞的同一個意思對應(yīng)多個特征向量進行平均池化處理,得到均值向量;
所述平均池化處理的計算公式為:
Sc為均值向量,n為特征向量總數(shù),I(q)為同一個多義詞的同一個解釋q對應(yīng)的特征向量集,ci為特征向量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京交通大學,未經(jīng)北京交通大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810368937.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





