[發明專利]政策文件處理方法及裝置有效
| 申請號: | 201811158101.6 | 申請日: | 2018-09-30 |
| 公開(公告)號: | CN110968757B | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 冉守旭 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F40/14;G06F40/289 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 政策 文件 處理 方法 裝置 | ||
本發明公開了一種政策文件處理方法及裝置,可以獲得待處理的政策文件,然后從所述政策文件中獲得至少一種文件信息,將所述文件信息與預設的政策對象組中各政策對象的對象信息進行對比,根據對比結果將所述預設的政策對象組中的至少一個政策對象確定為所述政策文件的政策對象。本發明可以獲得政策文件中的文件信息,然后根據文件信息確定政策文件的政策對象,本發明可以自動確定政策文件的政策對象,效率較高。
技術領域
本發明涉及文件處理技術領域,尤其涉及政策文件處理方法及裝置。
背景技術
隨著我國科技水平的提高,政府部門越來越多的通過互聯網將各種政策文件進行發布。
政府部門發布的政策文件中往往攜帶有眾多的政策信息,了解這些政策信息對我國各種經濟主體而言十分重要。由于不同的政策文件針對不同的政策對象(例如某政策文件針對的政策對象為小微企業),因此用戶一般只需要了解和自己有關的政策文件。現有技術下往往通過人工從政府網站下載相關政策文件,然后通過人工讀取政策文件來確定政策文件的政策對象。
由于各級部門發布的政策文件數量眾多,因此人工讀取政策文件來確定政策對象的方法費時費力,效率較低。
發明內容
鑒于上述問題,本發明提供一種克服上述問題或者至少部分地解決上述問題的政策文件處理方法及裝置,方案如下:
一種政策文件處理方法,包括:
獲得待處理的政策文件;
從所述政策文件中獲得至少一種文件信息;
將所述文件信息與預設的政策對象組中各政策對象的對象信息進行對比,根據對比結果將所述預設的政策對象組中的至少一個政策對象確定為所述政策文件的政策對象。
可選的,所述獲得待處理的政策文件,包括:
對包含政策文件的網頁進行爬取,獲得超文本標記語言文件;
對所述超文本標記語言文件進行替換處理:將所述超文本標記語言文件中的各超文本標記語言標簽替換為一個空格,將所述超文本標記語言文件中連續的空格替換為一個空格;
將進行所述替換處理后的超文本標記語言文件確定為待處理的政策文件。
可選的,所述文件信息包括文號和標題,所述從所述政策文件中獲得至少一種文件信息,包括:
通過正則表達式從所述政策文件中獲得文號;
確定獲得的所述文號之前的字符的數量是否大于第一數量,如果是,則判斷所述文號之前最近的兩個字符是否為“文件”二字,如果是,則將所述文號之后的多個字符確定為標題;否則,將所述文號之前的全部字符確定為標題。
可選的,所述將所述文號之后的多個字符確定為標題,包括:
將所述文號之后且與所述文號最近的字符確定為當前字符,判斷所述當前字符是否為空格,如果不為空格,則將當前字符之后且與該當前字符最近的字符確定為當前字符,返回執行所述判斷所述當前字符是否為空格的步驟;
如果為空格,則判斷所述當前字符與所述文號之間的字符的數量是否大于第二數量,如果大于第二數量,則將所述當前字符與所述文號之間的字符確定為標題;如果不大于第二數量,則將當前字符之后且與該當前字符最近的字符確定為當前字符,返回執行所述判斷所述當前字符是否為空格的步驟。
可選的,所述文件信息包括發布日期和發布機構,所述從所述政策文件中獲得至少一種文件信息,包括:
通過正則表達式從所述政策文件中獲得發布日期;
確定所述發布日期之前的字符中距離所述發布日期最近的兩個空格,將所述兩個空格之間的字符確定為發布機構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811158101.6/2.html,轉載請聲明來源鉆瓜專利網。





