[發明專利]一種政務電子文檔的內容分析提取系統在審
| 申請號: | 202010002755.0 | 申請日: | 2020-01-02 |
| 公開(公告)號: | CN111178057A | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 王知明;李杰 | 申請(專利權)人: | 大漢軟件股份有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279 |
| 代理公司: | 江蘇法德東恒律師事務所 32305 | 代理人: | 劉林 |
| 地址: | 210000 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 政務 電子 文檔 內容 分析 提取 系統 | ||
本發明公開了一種政務電子文檔的內容分析提取系統,屬于文檔內容提取技術領域,為了解決現有技術中對于內容抽取的準確性以及效率性能等方面表現參差不齊,提供的渠道單一擴展不便的問題,本發明通過不同渠道傳來的URL或者文件使用內容抽取模塊抽取內容,再通過特征與規則手段來判斷適合的信息類型并抽取出信息的要素,其中對于頁面中有可以解析提取的電子文檔,將會繼續解析提取里面的內容與字段,最后通過提供并接受多種渠道的文檔內容分析提取請求,并提供異步處理方案使系統之間解耦。本發明使得對于文檔內容抽取的準確性以及效率性能等方面的表現較好,并且提供的提取系統渠道多樣化、擴展方便,實現異步處理、高可用性及高吞吐量。
技術領域
本發明涉及一種文檔內容的提取系統,特別是涉及一種政務電子文檔的內容分析提取系統,屬于文檔提取系統技術領域。
背景技術
隨著電子政務的發展政府網站越來越多,政府公開的數據也越來越多,這些數據可能是新錄入,也有很多很早就存在的電子文檔,而電子文檔形式的信息向外界公開多數以下載的形式,更多的是通過人工抄錄的方式錄入到建設的內容管理系統;在政務集約化建設的指導方針下,政府網站采用中臺方式集中管理,對于獨立建設的站點需要進行合并和遷移,其中有相當多的網站需要用爬蟲將頁面內容抓取到中臺。
政務業務需要電子文檔內容提取解決方法、網頁內容提取解決方法以及精確提取內容中關鍵要素的解決方法。
傳統技術可以讀取到電子文檔內容,頁面內容等,但對于內容抽取的準確性以及效率性能等方面表現參差不齊,并且提供的渠道單一擴展不便。
發明內容
本發明的主要目的是解決現有技術中對于內容抽取的準確性以及效率性能等方面表現參差不齊,并且提供的渠道單一擴展不便的問題,而提供一種政務電子文檔的內容分析提取系統。
本發明的目的可以通過采用如下技術方案達到:
一種政務電子文檔的內容分析提取系統,可以實現兩個目的,分別如下:
(1)、提供對各種電子文檔的內容抽取和html、asp、jsp、php等頁面內容提取,同時提供對內容的關鍵要素進行提取,例如對于政務新聞提取標題、內容、時間、作者;對于政府信息公開除了提取新聞的要素外還提取索引號、文號、信息分類、發布機構,支持按需擴展自定義要素的規則;
(2)、提供并接受多種渠道的文檔內容分析提取請求,并提供異步處理方案使系統之間解耦。
進一步的,目的(1)的技術方案如下:
a、接收文件;
b、判斷傳來的文件類型;
c、使用對應文件類型的內容抽取模塊來讀取整個文件內容;
d、對于電子文檔繼續抽取文件的Metadata;
e、對于網頁文件抽取頁面的head中的title、meta;
f、對于電子文檔需要使用特征來分析內容;
g、對于網頁需要使用密度以及規則來分析內容;
h、將結果封裝成統一格式返回。
進一步的,目的(2)的技術方案如下:
同步:提供REST接口,對接系統可以POST文件或者URL地址,系統接收后同步處理將提取結果返回,期間對接系統需要等待;
異步:提供使用消息中間件的交互方式,對接系統將需要處理的文件或者URL發送給消息中間件,由消息中間件發送給文檔內容分析提取系統,系統處理完畢后將結果返回給消息中間件,對接系統通過接收消息來處理結果,期間對接系統可以不用等待提取系統的結果反饋。
本發明的有益技術效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大漢軟件股份有限公司,未經大漢軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010002755.0/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





