[發(fā)明專利]基于雙門控遞歸單元解碼的喉鏡圖像識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010882806.3 | 申請(qǐng)日: | 2020-08-28 |
| 公開(公告)號(hào): | CN112052889B | 公開(公告)日: | 2023-05-05 |
| 發(fā)明(設(shè)計(jì))人: | 緱水平;劉寧濤;馬蘭;李國(guó)棟;毛莎莎;童諾;姚瑤;李陽(yáng)陽(yáng) | 申請(qǐng)(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類號(hào): | G06V20/50 | 分類號(hào): | G06V20/50;G06V10/82;G06V10/774;G06V10/80;G06N3/0464;G06N3/0442;G06N3/0455;G06N3/048;G06N3/047;G06N3/084 |
| 代理公司: | 陜西電子工業(yè)專利中心 61205 | 代理人: | 王品華;黎漢華 |
| 地址: | 710071*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 門控 遞歸 單元 解碼 喉鏡 圖像 識(shí)別 方法 | ||
本發(fā)明公開了一種基于雙門控遞歸單元解碼的喉鏡圖像識(shí)別方法,主要解決現(xiàn)有方法無(wú)法用于光學(xué)喉鏡圖像,及生成的醫(yī)學(xué)文本報(bào)告準(zhǔn)確性差和可讀性不足的問(wèn)題。其實(shí)現(xiàn)方案為:獲取光學(xué)喉鏡圖像數(shù)據(jù)集以及相應(yīng)的醫(yī)學(xué)文本報(bào)告,并對(duì)醫(yī)學(xué)文本報(bào)告進(jìn)行分詞和編碼操作得到標(biāo)簽數(shù)據(jù)集;對(duì)圖像數(shù)據(jù)集進(jìn)行縮放和中心化處理,并與標(biāo)簽數(shù)據(jù)集一同記為訓(xùn)練數(shù)據(jù)集;構(gòu)造一個(gè)包含13個(gè)卷積層、4個(gè)池化層和2個(gè)門控遞歸單元的綜合網(wǎng)絡(luò),并使用訓(xùn)練數(shù)據(jù)集,利用自適應(yīng)學(xué)習(xí)率優(yōu)化算法對(duì)其訓(xùn)練;將一張無(wú)標(biāo)簽的光學(xué)喉鏡圖像作為測(cè)試數(shù)據(jù)輸入到訓(xùn)練好的綜合網(wǎng)絡(luò),得到測(cè)試圖像識(shí)別后對(duì)應(yīng)的醫(yī)學(xué)報(bào)告。本發(fā)明提高了生成文本的準(zhǔn)確性和可讀性,可用于對(duì)喉鏡圖像的識(shí)別。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理領(lǐng)域,特別涉及一種光學(xué)喉鏡圖像的識(shí)別方法,可用于為生成光學(xué)喉鏡圖像報(bào)告提供依據(jù),提高醫(yī)生對(duì)光學(xué)喉鏡圖像的診斷效率及診斷準(zhǔn)確性。
背景技術(shù)
喉鏡圖像對(duì)于鼻腔以及咽喉部位疾病的診斷以及治療有著重要的作用,現(xiàn)有對(duì)喉鏡圖像的診斷一般都需要專業(yè)的醫(yī)生在原始圖像中對(duì)各個(gè)區(qū)域進(jìn)行仔細(xì)地檢查,這對(duì)于醫(yī)生來(lái)說(shuō)是一個(gè)具有挑戰(zhàn)性的任務(wù),因?yàn)樗胁∽冎荒芤揽酷t(yī)生肉眼觀察,長(zhǎng)時(shí)間的觀察會(huì)引起醫(yī)生注意力下降以及精神疲勞,從而導(dǎo)致醫(yī)生在檢查時(shí)產(chǎn)生漏判和誤判以及診斷效率的降低。所以,急需一種有效的方法對(duì)喉鏡圖像進(jìn)行理解,并依據(jù)是理解結(jié)果自動(dòng)生成醫(yī)學(xué)報(bào)告,從而提升喉鏡圖像的診斷效率以及診斷精度。
近年來(lái),深度學(xué)習(xí)在圖像處理和分析領(lǐng)域掀起了一陣熱潮,在低層次的圖像去噪、超分辨任務(wù)到高層次的圖像檢測(cè)與圖像理解等任務(wù)中均有涉及。這種信息處理機(jī)制模仿了人類視覺(jué)神經(jīng)系統(tǒng),對(duì)圖像處理和分析十分有效,已經(jīng)有一些研究工作將深度學(xué)習(xí)應(yīng)用到了醫(yī)學(xué)圖像理解方面,并且取得了不錯(cuò)的結(jié)果。
在醫(yī)學(xué)圖像理解的應(yīng)用中,Eric?P.Xing等人首先利用卷積神經(jīng)網(wǎng)絡(luò)CNN提取胸透圖像特征,并用全連接層特征對(duì)圖像做多標(biāo)簽分類,得到圖像的高維特征,從而完成對(duì)圖像的理解和特征表示,然后將特征以及多分類標(biāo)簽嵌入向量進(jìn)行聯(lián)合加權(quán)得到圖像的聯(lián)合特征,并使用雙層長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM對(duì)聯(lián)合特征解碼生成胸透圖像的報(bào)告。Christy?Y.Li等人也是利用CNN提取胸透圖像特征完成對(duì)圖像的理解,然后對(duì)圖像理解過(guò)程得到的特征進(jìn)行編碼得到圖像內(nèi)容向量,之后使用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN從內(nèi)容向量循環(huán)得到話題向量,然后使用模板句生成圖像報(bào)告或者使用堆疊RNN解碼話題向量生成圖像報(bào)告,最后通過(guò)報(bào)告的CIDEr分?jǐn)?shù)作為獎(jiǎng)勵(lì)使用強(qiáng)化學(xué)習(xí)來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)的優(yōu)化。
Yuan?Xue等人使用多個(gè)角度的胸透圖像得到識(shí)別特征向量,并據(jù)此并生成圖像報(bào)告,即首先利用CNN對(duì)多個(gè)圖像提取全連接特征與卷積層特征作為報(bào)告生成的特征向量,然后將多個(gè)圖像的特征堆疊在一起輸入到LSTM生成一句總體的描述,接下來(lái)利用雙向LSTM將上一句描述編碼為語(yǔ)義特征,與經(jīng)過(guò)加權(quán)的圖像特征一起輸入到另一個(gè)LSTM循環(huán)得到整個(gè)圖像報(bào)告。
上述這些算法都是針對(duì)X光圖像的理解任務(wù),目前仍沒(méi)有針對(duì)光學(xué)圖像理解和醫(yī)學(xué)報(bào)告生成的方法;另一方面,這些算法普遍使用單個(gè)LSTM對(duì)注意力機(jī)制與圖文融合建模,具有局限性,即使用單個(gè)LSTM模塊同時(shí)完成注意力向量的獲取和從圖像特征映射到文本的任務(wù),故無(wú)法有效地獲取準(zhǔn)確的注意力權(quán)重,限制了圖像理解生成文本的準(zhǔn)確性和可讀性。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)上述現(xiàn)有技術(shù)的不足,提出一種基于雙門控遞歸單元解碼的喉鏡圖像識(shí)別方法,以準(zhǔn)確有效地獲取由光學(xué)喉鏡圖像特征生成的注意力權(quán)重,進(jìn)而提高醫(yī)學(xué)文本報(bào)告的準(zhǔn)確性和可讀性。
本發(fā)明的技術(shù)思路是:利用卷積神經(jīng)網(wǎng)絡(luò)CNN提取喉鏡圖像特征,通過(guò)使用第一門控遞歸單元得到注意力權(quán)重,通過(guò)使用第二門控遞歸單元解碼加權(quán)過(guò)的圖像特征得到圖像報(bào)告,其實(shí)現(xiàn)步驟包括如下:
(1)獲取患者的喉鏡圖像,記為喉鏡數(shù)據(jù)集P,并取得對(duì)應(yīng)喉鏡圖像的醫(yī)學(xué)文本報(bào)告集合,記為Q;
(2)由醫(yī)學(xué)文本報(bào)告集合Q獲取標(biāo)簽數(shù)據(jù)集R:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010882806.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





