[發(fā)明專利]一種氣溶膠文獻格式化數(shù)據(jù)庫的構建方法在審
| 申請?zhí)枺?/td> | 201910469969.6 | 申請日: | 2019-05-31 |
| 公開(公告)號: | CN110222057A | 公開(公告)日: | 2019-09-10 |
| 發(fā)明(設計)人: | 張克俊;鄭俊;黃小倚;陳潔;劉東;畢磊 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2458;G06F16/25;G06F16/951 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 胡紅娟;曹兆霞 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 氣溶膠 數(shù)據(jù)圖 格式化 文本 統(tǒng)計信息 數(shù)據(jù)庫 文獻數(shù)據(jù) 構建 文本預處理 模板匹配 數(shù)值屬性 索引關系 知識服務 坐標信息 數(shù)據(jù)點 存儲 統(tǒng)計 轉換 全球 | ||
1.一種氣溶膠文獻格式化數(shù)據(jù)庫的構建方法,包括以下步驟:
(1)收集全球氣溶膠文獻數(shù)據(jù),確定氣溶膠文獻數(shù)據(jù)的文獻相關屬性、文本統(tǒng)計信息屬性、數(shù)據(jù)圖具體數(shù)值屬性;
(2)提取每個氣溶膠文獻的文獻相關屬性,形成文獻相關屬性數(shù)據(jù)表;
(3)對每個氣溶膠文獻進行PDF到TXT文本格式轉換、文本預處理以及正則模板匹配,以實現(xiàn)文本統(tǒng)計信息的提取,形成文本統(tǒng)計數(shù)據(jù)表;
(4)對數(shù)據(jù)圖進行數(shù)據(jù)點坐標信息提取,以提取數(shù)據(jù)圖具體數(shù)值,形成數(shù)據(jù)圖具體數(shù)值數(shù)據(jù)表;
(5)建立文獻相關屬性數(shù)據(jù)表、文本統(tǒng)計數(shù)據(jù)表以及數(shù)據(jù)圖具體數(shù)值數(shù)據(jù)表之間的索引關系,將對應的文獻相關屬性、文本統(tǒng)計信息以及數(shù)據(jù)圖具體數(shù)值進行存儲,形成氣溶膠文獻格式化數(shù)據(jù)庫。
2.如權利要求1所述的氣溶膠文獻格式化數(shù)據(jù)庫的構建方法,其特征在于,文獻相關屬性、文本統(tǒng)計信息屬性、數(shù)據(jù)圖具體數(shù)值屬性包括:
3.如權利要求1所述的氣溶膠文獻格式化數(shù)據(jù)庫的構建方法,其特征在于,步驟(3)中,采用python的庫pdfminer將PDF文件轉換成TXT文本;
采用python的自然語言處理庫NLTK來進行分詞、去除停用詞、詞干提取和命名實體識別,以實現(xiàn)對文本預處理;
正則模板匹配包括以下步驟:
(a)關鍵詞定位:通過字符串匹配在氣溶膠文獻文本中搜索并定位八種光學參數(shù)名的首字符所對應的位置,其中,八種光學參數(shù)名包括激光雷達比、退偏比、后向散射系數(shù)、消光系數(shù)、光學厚度、譜退偏振比、色比、Angstrom指數(shù);
(b)屬性實體識別:采用基于NLTK的命名實體識別技術來識別地址,通過正則表達式匹配時間、地點、波長、氣溶膠類型以及光學參數(shù)數(shù)值;
(c)段落內規(guī)則匹配:根據(jù)段內最近匹配規(guī)則將關鍵詞和屬性實體關聯(lián),實現(xiàn)自動提取文本中匹配到的結構化信息并進行段落內容展示,然后,通過人工閱讀審核的方式對此提取結果進行修正和補充。
4.如權利要求1所述的氣溶膠文獻格式化數(shù)據(jù)庫的構建方法,其特征在于,步驟(4)具體包括:
(4-1)對數(shù)據(jù)圖進行傾斜矯正和數(shù)據(jù)點區(qū)域提取;
(4-2)對每類數(shù)據(jù)圖,對數(shù)據(jù)點區(qū)域進行數(shù)據(jù)點提取;
(4-3)按照預設的坐標屬性和坐標閾值將每個數(shù)據(jù)點轉化為數(shù)據(jù)點坐標信息。
5.如權利要求4所述的氣溶膠文獻格式化數(shù)據(jù)庫的構建方法,其特征在于,步驟(4-1)具體包括:
采用平均值法對數(shù)據(jù)圖進行灰度化,獲得灰度圖像;
采用OpenCV的Canny算子檢測灰度圖像的圖像邊緣;
采用Hough變換檢測方法檢測圖像邊緣內的直線集合,并提取最長直線L1;
計算最長直線L1的傾斜角度,根據(jù)傾斜角度對灰度圖像進行旋轉以實現(xiàn)傾斜矯正;
在圖像邊緣內搜索與最長直線L1垂直的最長垂直交線L2,以最長直線L1和最長垂直交線L2的交點為原點,以最長直線L1和最長垂直交線L2作為邊界,提取數(shù)據(jù)點區(qū)域。
6.如權利要求5所述的氣溶膠文獻格式化數(shù)據(jù)庫的構建方法,其特征在于,當數(shù)據(jù)圖為散點圖時,采用霍夫梯度法進行霍夫圓形檢測,以獲得散點圖中的圓形像素點,該圓形像素點即為數(shù)據(jù)點;
當數(shù)據(jù)圖為折線圖時,根據(jù)高度從上到下遍歷每一行對應的像素列表中所有像素點,求每一行像素點的中位數(shù)作為數(shù)據(jù)點;
當數(shù)據(jù)圖為柱形圖時,采用邊緣檢測方法識別橫線,并當橫線上方面積為空白區(qū)域時,該橫線的中間像素點即為數(shù)據(jù)點。
7.如權利要求4所述的氣溶膠文獻格式化數(shù)據(jù)庫的構建方法,其特征在于,步驟(4-3)具體包括:
利用公式(1)和公式(2)將數(shù)據(jù)點轉化為數(shù)據(jù)點坐標信息:
x=X1+(X2-X1)*b/width (1)
y=Y1+(Y2-Y1)*(height-a+1)/height (2)
其中,X1、X2、Y1、Y2分別為預設的橫坐標軸最小值、最大值,縱坐標最小值、最大值,(a,b)表示數(shù)據(jù)點的像素坐標,width和height分別表示數(shù)據(jù)圖的寬度和高度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910469969.6/1.html,轉載請聲明來源鉆瓜專利網。





