[發明專利]標的物參數信息抽取方法、裝置、存儲介質及電子設備在審
| 申請號: | 202110732582.2 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113590655A | 公開(公告)日: | 2021-11-02 |
| 發明(設計)人: | 付建卓;李海華;詹傳鑫;邰世康;韓春雨 | 申請(專利權)人: | 中國神華國際工程有限公司 |
| 主分類號: | G06F16/245 | 分類號: | G06F16/245;G06F16/215;G06F16/25 |
| 代理公司: | 北京聿宏知識產權代理有限公司 11372 | 代理人: | 陳敏;吳昊 |
| 地址: | 100007 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標的物 參數 信息 抽取 方法 裝置 存儲 介質 電子設備 | ||
1.一種標的物參數信息抽取方法,其特征在于,所述方法包括:
接收招標文件,并對所述招標文件進行預處理,得到PDF格式的招標文件;
對所述PDF格式的招標文件進行結構化處理,得到結構化的招標文件;
構建正則規則對所述結構化的招標文件中的目標標的物的參數信息進行信息抽取;
根據信息抽取過程中的中間信息建立抽取報告,得到抽取結果。
2.根據權利要求1所述的方法,其特征在于,所述對所述PDF格式的招標文件進行結構化處理,得到結構化的招標文件,包括:
采用pypdf2提取PDF格式的招標文件中的書簽信息;
構建正則規則對所述書簽信息中的書簽名稱進行正則匹配,得到章節書簽信息,所述章節書簽信息包括各個章節的書簽名稱和位置;
根據所述章節書簽信息對所述PDF格式的招標文件進行劃分,得到招標文件中的各個章節內容;
構建正則規則對所述各個章節內容進行劃分,得到每個章節內容中的各個小節的小節信息,所述小節信息包括各個小節的小節名稱和位置。
3.根據權利要求2所述的方法,其特征在于,所述根據所述章節書簽信息對所述PDF格式的招標文件進行劃分,分別得到招標文件中的各個章節內容,包括:
根據所述各個章節的書簽名稱構建正則規則定位各個章節,并根據各個章節的位置劃分所述招標文件,得到各個章節對應的章節文件;
采用pdfplumber識別每個章節文件,得到章節文本;
采用自然語言處理技術對所述章節文本進行清洗,得到清洗后的章節文本;
將所述清洗后的章節文本以txt格式進行存儲。
4.根據權利要求2所述的方法,其特征在于,所述采用預設正則規則對所述結構化的招標文件中的目標標的物的參數信息進行信息抽取,包括:
構建正則規則定位目標標的物的參數信息在所述招標文件中所在的章節;
構建正則規則,在所述章節中定位目標標的物的參數信息在所述招標文件中所在的小節;
構建正則規則,將所述小節劃分為多個標包,得到包含所述小節內容的各個標包;
對所述各個標包進行篩選,得到目標標的物所屬的標包;
構建正則規則,定位目標標的物的參數信息在所述目標標的物所屬的標包的小節內容中的定位位置;
從所述定位位置為起始,逐行進行參數識別,提取出與所述參數信息相對應的參數類型、參數名稱和參數值;
將所述參數類型、參數名成和參數值,與所述參數類型、參數名成和參數值所屬的招標文件名以鍵值對的格式一起存為python字典類型數據;
將所述python字典類型數據存儲為json文件。
5.根據權利要求4所述的方法,其特征在于,所述對所述各個標包進行篩選,得到目標標的物所屬的標包,包括:
通過檢測標包中的小節內容開頭是否包含所述目標標的物的名稱來判斷當前標包是否為所述目標標的物所屬的標包。
6.根據權利要求4所述的方法,其特征在于,所述從所述定位位置為起始,逐行進行參數識別,提取出與所述參數信息相對應的參數類型、參數名稱和參數值,包括:
構建正則規則,判斷當前行文本是否為一級標題,若是,則得到當前行文本的參數類型,并修改當前行文本的參數類型為清洗掉標題后的文本內容;
若否,則構建正則規則,判斷當前行文本是否為二級標題且包含“參數名稱:參數值”格式的文本,若是,則構建正則規則提取出參數名稱和參數值,與當前行文本的參數類型作為一條參數項存為python字典類型數據;
若否,則構建正則規則,判斷當前行文本是否為二級標題,若是,則將當前行文本的整行文本當作參數名稱,將參數值置空,并保存當前參數項;
若否,則判斷當前行文本是否為三級標題,若是,則將當前行文本清洗掉標題后加入上一條參數項的參數值中;
若否,則將當前行文本加入到上一條參數項的參數值中;
切換到下一行行文本,重復上述步驟,直至識別完當前標包內的所有小節內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國神華國際工程有限公司,未經中國神華國際工程有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110732582.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:毛細微流控qPCR核酸檢測裝置
- 下一篇:一種松材線蟲病枯死木的處理方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





