[發明專利]一種基于ResUNet神經網絡的化學結構式分割方法有效
| 申請號: | 202010419502.3 | 申請日: | 2020-05-18 |
| 公開(公告)號: | CN111709293B | 公開(公告)日: | 2023-10-03 |
| 發明(設計)人: | 王毅剛;邵錦濤 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/413;G06V30/148;G06V10/26;G06V30/19;G06V10/764;G06N3/0464;G06V10/82;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 resunet 神經網絡 化學 結構式 分割 方法 | ||
1.一種基于ResUNet神經網絡的化學結構式分割方法,其特征在于包括如下步驟:
步驟(1)構造訓練集T,訓練集T包括手動標注訓練集T-1和自動生成訓練集T-2兩部分;
步驟(2)將訓練集T送入ResUNet神經網絡進行訓練,達到訓練指定次數或者Loss曲線不再下降且精度不再提高為止,將訓練好的ResUNet神經網絡模型保存;
步驟(3)使用步驟(2)中訓練好的ResUNet神經網絡模型對化學結構式進行分割;
所述的訓練集T-2是通過一種自動生成化學結構式訓練集的方法,基于排版模板的圖像隨機填充生成訓練集,其構建方法包括如下步驟:
a.構造排版模板,在文字區域隨機生成文本數據;
b.生成大量化學結構式圖像;
c.在排版模板中尋找空白位置隨機填充化學結構式圖像式并標記。
2.根據權利要求1所述的一種基于ResUNet神經網絡的化學結構式分割方法,其特征在于將手動標注出版物中的化學式作為部分訓練集T-1,且訓練集T-1和訓練集T-2的容量比例為1:50。
3.根據權利要求1或2所述的一種基于ResUNet神經網絡的化學結構式分割方法,其特征在于所述構造排版模板的方法包括以下步驟:
a-1.手動標定200頁出版物中的文字區域,并進行旋轉、上下左右反轉進行數據擴充,共生成排版模板1000頁;
a-2.將互聯網文字和隨機文本生成器產生的文字作為文本數據,并隨機將文本數據填充排版模板中的文字區域。
4.根據權利要求3所述的一種基于ResUNet神經網絡的化學結構式分割方法,其特征在于所述生成大量化學結構式圖像方法包括以下步驟:
b-1.將PubChem數據庫中可用的5700萬分子數據,使用Indigo軟件隨機將其中的部分分子數據渲染成各種類型的256x256像素的3通道PNG格式圖像;
b-2.將圖像進行角度旋轉,上下左右反轉的數據擴充操作,共生成10萬張小分子化學結構式圖像。
5.根據權利要求4所述的一種基于ResUNet神經網絡的化學結構式分割方法,其特征在于所述在排版模板中尋找空白位置隨機填充化學結構式圖像并標記的方法包括以下步驟:
c-1.隨機取出生成的化學結構式圖像,經過隨機縮放比例后放置在文本區域外的空白位置,得到訓練集T-2中數據部分;
c-2.逐像素的標記化學結構式圖像所占用像素的位置,得到訓練集T-2的標簽部分。
6.根據權利要求5所述的一種基于ResUNet神經網絡的化學結構式分割方法,其特征在于所述ResUNet神經網絡為改進后的ResUNet神經網絡,其實現為:
將訓練集T作為改進后的ResUNet神經網絡的輸入圖像,輸入圖像為512×512×3大小,經過第一層7×7卷積后輸出大小為256×256×64的特征圖res-1;接著先使用3×3大小的最大值池化,再經過重復三次1×1大小、3×3大小、1×1大小共9次卷積,輸出128×128×256大小的特征圖res-2;再接著經過重復四次1×1大小、3×3大小、1×1大小共12次卷積,輸出64×64×512大小特征圖res-3,接著經過重復六次1×1大小、3×3大小、1×1大小共18次卷積,輸出32×32×1024大小特征圖res-4;接著經過重復三次1×1大小、3×3大小、1×1大小共9次卷積,輸出16×16×2048大小特征圖res-5;接著再進行1×1大小卷積,輸出16×16×1024大小特征圖conv-1;接著進行2×2上采樣,將輸出特征圖up-1與特征圖res-4拼接得到32×32×2048大小特征圖concat-1;接著進行3×3大小卷積,輸出32×32×512大小特征圖conv-2;接著進行2×2上采樣,將輸出特征圖up-2與特征圖res-3拼接得到64×64×1024大小特征圖concat-2;接著進行3×3大小卷積,輸出64×64×256大小特征圖conv-3;接著進行2×2上采樣,將輸出特征圖up-3與特征圖res-2拼接得到128×128×512大小特征圖concat-3;接著進行3×3大小卷積,輸出128×128×64大小特征圖conv-4;接著進行2×2上采樣,將輸出特征圖up-4與特征圖res-1拼接得到256×256×128大小特征圖concat-4;接著進行3×3大小卷積,輸出256×256×64大小特征圖conv-5;最后,經過2×2上采樣和1×1大小卷積,輸出與原輸入圖像大小對應的512×512×2結果圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010419502.3/1.html,轉載請聲明來源鉆瓜專利網。





