[發明專利]一種海外農業PDF文檔內容碎片化方法及系統在審
| 申請號: | 202010062861.8 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111259830A | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 劉敏娟;趙婉婧;王鸑飛;王新;陳莉;劉洪冰;商謙;羅曉斌;蔡隕;段飛虎 | 申請(專利權)人: | 中國農業科學院農業信息研究所 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 張琳琳 |
| 地址: | 100081 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 海外 農業 pdf 文檔 內容 碎片 方法 系統 | ||
1.一種訓練PDF文檔信息提取模型的方法,其特征在于,包括如下步驟:
獲取進行人工標注信息后的PDF文檔;
將標注后的PDF文檔轉儲為圖片;
采樣圖片的圖像數據,根據采樣區域的大小與寬高比篩選數據,設置預設大小與寬高比組合的錨框,根據預設方法確定與真實邊框最接近的錨框,作為匹配錨框;
標注每個匹配錨框的類別;
將標注類別的匹配錨框輸入卷積神經網絡中進行訓練,將訓練好的卷積神經網絡作為PDF文檔信息提取模型。
2.根據權利要求1所述的訓練PDF文檔信息提取模型的方法,其特征在于,人工標注的信息包括PDF文檔中標題、段落、公式、圖片及表格。
3.根據權利要求1所述的訓練PDF文檔信息提取模型的方法,其特征在于,所述設置預設大小與寬高比組合的錨框的步驟,包括:
設置一組錨框大小s1,...sn和一組錨框寬高比r1,...rm,在每個像素中心分別生成大小和寬高比組合為(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)的錨框。
4.根據權利要求3所述的訓練PDF文檔信息提取模型的方法,其特征在于,根據預設方法確定與真實邊框最接近的錨框,作為匹配錨框的步驟,包括:
獲取錨框與真實邊框組成的矩陣其中NA為錨框的數量,NB為真實邊框的數量,且NA≥NB;
獲取矩陣X中錨框與真實邊界框的交并比中的最大元素;
將最大元素所在行和列的元素丟棄,再確定剩余元素中的最大元素,將其所在行和列的元素丟棄,直至遍歷完NA-NB個錨框;
給定其中的錨框Ai,根據矩陣的第i行找到與Ai交并比最大的真實邊界框Bj,當交并比大于預設閾值時,為錨框Ai分配的真實邊界框Bj。
5.根據權利要求1所述的訓練PDF文檔信息提取模型的方法,其特征在于,每個錨框標注的標簽包括:人工標注的錨框的類別及真實邊界框相對錨框的偏移量。
6.一種海外農業PDF文檔內容碎片化方法,其特征在于,包括:
獲取海外農業PDF文檔;
將所述海外農業PDF文檔轉儲為圖片后,輸入根據權利要求1-5任一所述的訓練PDF文檔信息提取模型的方法得到的PDF文檔信息提取模型中,檢測海外農業PDF文檔的碎片化內容;
將所述海外農業PDF文檔的碎片化內容進行圖像轉儲進行顯示。
7.一種訓練PDF文檔信息提取模型的系統,其特征在于,包括:
標注信息獲取模型,用于獲取進行人工標注信息后的PDF文檔;
標注圖片轉儲模塊,用于將標注后的PDF文檔轉儲為圖片;
錨框匹配模塊,用于采樣圖片的圖像數據,根據采樣區域的大小與寬高比篩選數據;設置預設大小與寬高比組合的錨框,根據預設方法確定與真實邊框最接近的錨框,作為匹配錨框;
匹配錨框標注模塊,用于標注每個匹配錨框的類別;
模型訓練模塊,用于將標注類別的匹配錨框輸入卷積神經網絡中進行訓練,將訓練好的卷積神經網絡作為PDF文檔信息提取模型。
8.一種海外農業PDF文檔內容碎片化系統,其特征在于,包括:
海外農業PDF文檔獲取模塊,用于獲取海外農業PDF文檔;
碎片化內容獲取模塊,用于將所述海外農業PDF文檔轉儲為圖片后,輸入根據權利要求1-5任一所述的訓練PDF文檔信息提取模型的方法得到的PDF文檔信息提取模型中,檢測海外農業PDF文檔的碎片化內容;
碎片化內容圖像轉儲模塊,用于將所述海外農業PDF文檔的碎片化內容進行圖像轉儲進行顯示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國農業科學院農業信息研究所,未經中國農業科學院農業信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010062861.8/1.html,轉載請聲明來源鉆瓜專利網。





