[發明專利]一種文本信息自動提取方法在審
| 申請號: | 202011507003.6 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112597353A | 公開(公告)日: | 2021-04-02 |
| 發明(設計)人: | 劉金碩;王晨陽;鄧娟;黃朔;劉寧;唐浩洲 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F16/907;G06F16/9038;G06F16/11 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 肖明洲 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 信息 自動 提取 方法 | ||
本發明公開了一種文本信息自動提取方法,現有招標文件標的物的參數信息提取均靠人工抽取,需要花費大量人工及時間,耗時耗力。本發明使用自然語言處理技術對招標文本進行自動化的參數信息抽取,設計了標書文本結構化,標的物參數信息提取,提取報告體系,標書文本結構化包括利用利用pypdf2提取書簽信息,利用pdfplumber識別pdf標書文本,利用正則對文本進行清洗,隨后利用規則匹配對文本進行結構化分析處理。標的物參數信息提取通過利用正則技術對結構化后的標書文本中標的物的技術參數信息進行精準識別和提取。最后利用前述過程中的信息建立抽取報告,直觀反映整個抽取情況。
技術領域
本發明屬于計算機技術領域,涉及一種文本信息自動提取方法,具體涉及一種面向招標文本的標的物參數信息自動提取方法。
背景技術
隨著現在信息技術的智能化、自動化的不斷發展,給人們的生活帶來了巨大的影響和方便,能自動的把文字轉換為圖片,又可以將圖片轉換為文字,越來越智能化了,越來越方便,便捷;但是面向一些具體領域,需要的信息具體特殊性,而現有的技術很難針對性地進行信息提取,例如面向招標文本的標的物參數信息自動提取。
招標文件是采購需求的集中體現,招標文件的質量直接決定了招標結果的成敗。通過利用過往的招標文件編制招標標準文件,能夠統一規范招標行為,提高招標質量,促進管理水平的提升,同時能夠提高項目成功率,節約招標文件的編制時間。然而現有招標標準文件均靠人工編制,特別是標的物參數、技術要求等部分,需要很多精通技術的專業人員,耗費大量時間精力去提取信息。
目前迫切需要一種針對特殊信息提取的技術。
發明內容
為了解決上述技術問題,本發明提供了一種文本信息自動提取方法,用于解決招標文本的標的物參數信息自動抽取問題,以替代當前耗時耗力的人工抽取方法。
本發明所采用的技術方案是:一種文本信息自動提取方法,其特征在于,包括以下步驟:
步驟1:對輸入文本進行批量預處理,將輸入文本轉成pdf格式文本;
步驟2:對pdf格式文本進行結構化處理;
步驟2的具體實現包括以下子步驟:
步驟2.1:輸入批量pdf格式文本;
步驟2.2:利用pypdf2提取pdf格式文本中的書簽信息,構建規則對書簽名進行正則匹配,得到匹配出的章節書簽,保存書簽的名稱以及頁面位置信息;
其中,根據書簽名提取章節書簽的規則為:Pattern=“(第.*章|第.*部分)”;
步驟2.3:基于步驟2.2中取出的章節書簽信息對pdf格式文本進行劃分,分別得到文件中的各章節文本;
步驟2.4:基于步驟2.3中獲得的各章節文本,構建特定的正則規則對該章節文本進行劃分,獲取章節中各小節的名稱以及位置;
其中,提取小節的正則規則為:Pattern=“.*第.節.”;
步驟3:對指定標的物的相關信息進行定位識別及抽取;
步驟4:利用上述步驟的中間信息建立抽取報告,生成抽取結果。
作為優選,步驟1中,利用winAPI對輸入文本進行批量預處理,利用python win32庫,調用word底層vba,將word格式文本轉成pdf格式文本。
作為優選,步驟2.3的具體實現包括以下子步驟:
步驟2.3.1:根據書簽中的書簽名構建正則規則定位各章節,利用其對應的頁面位置信息截取原pdf文件;
步驟2.3.2:利用pdfplumber識別截取后的章節文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011507003.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:便攜式野外移動應急通信系統
- 下一篇:一種復合捕收劑及其在黃銅礦浮選中的應用
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





