[發明專利]一種按涉及重大重組主題的PDF文件切割方法在審
| 申請號: | 201710823125.8 | 申請日: | 2017-09-13 |
| 公開(公告)號: | CN107633040A | 公開(公告)日: | 2018-01-26 |
| 發明(設計)人: | 張貝貝;徐小艷;周帥鵬;荊姝娟 | 申請(專利權)人: | 張貝貝;徐小艷;周帥鵬;荊姝娟 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22;G06F17/27 |
| 代理公司: | 西安通大專利代理有限責任公司61200 | 代理人: | 徐文權 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 涉及 重大 重組 主題 pdf 文件 切割 方法 | ||
1.一種按涉及重大重組主題的PDF文件切割方法,其特征在于,包括以下步驟:
1)通過分布式互聯網爬蟲技術獲取涉及重大重組主題且以PDF格式存儲的業務文件;
2)依據業務層需求對步驟1)獲取的涉及重大重組主題且以PDF格式存儲的業務文件進行涉及重大重組主題的業務層分析,確定涉及重大重組主題的PDF文件的語言描述特征、關鍵字及關鍵字標題;
3)通過涉及重大重組主題的PDF文件及步驟2)所確定涉及重大重組主題的PDF文件的語言描述特征逐頁對源PDF文件進行關鍵字及關鍵字標題的正則搜索,確定包含關鍵字及關鍵字標題的PDF文件的頁碼信息集合P;
4)采用頁碼異常去除機制對步驟3)得到的PDF文件頁碼信息集合P中的異常頁碼進行去除,得去除后的PDF文件頁碼信息集合Pfinal;
5)根據步驟4)所獲得的去除后PDF文件頁碼信息集合Pfinal對源PDF文件進行關于重大重組主題的切割,完成涉及重大重組主題的PDF文件切割。
2.根據權利要求1所述的按涉及重大重組主題的PDF文件切割方法,其特征在于,涉及重大重組主題的關鍵字和關鍵字標題集合記KRT={KRT1,KRT2,KRT3,...,KRTn},n=13,其中,KRT1表示交易方,KRT2表示交易對方,KRT3表示收購總股數,KRT4表示收購總股本,KRT5表示發行股份,KRT6表示發行股份及支付現金,KRT7表示資產重組,KRT8表示重大資產置換,KRT9表示參與競拍,KRT10表示參與定向增發的協議,KRT11表示收購,KRT12表示構成重大重組,KRT13表示交易時間。
3.根據權利要求2所述的按涉及重大重組主題的PDF文件切割方法,其特征在于,涉及重大重組主題的PDF文件的頁碼值信息集合其中,P1={包含KRT1的PDF文件的頁碼值集合};P2={包含KRT2的PDF文件的頁碼值集合};P3={包含KRT3的PDF文件的頁碼值集合};P4={包含KRT4的PDF文件的頁碼值集合};P5={包含KRT5的PDF文件的頁碼值集合};P6={包含KRT6的PDF文件的頁碼值集合};P7={包含KRT7的PDF文件的頁碼值集合};P8={包含KRT8的PDF文件的頁碼值集合};P9={包含KRT9的PDF文件的頁碼值集合};P10={包含KRT10的PDF文件的頁碼值集合};P11={包含KRT11的PDF文件的頁碼值集合};P12={包含KRT5的PDF文件的頁碼集合};P13={包含KRT6的PDF文件的頁碼集合}。
4.根據權利要求1所述的按涉及重大重組主題的PDF文件切割方法,其特征在于,步驟4)具體操作為:采用頁碼異常去除機制對步驟3)得到的PDF文件頁碼信息集合P中的異常頁碼進行去除,得去除后的PDF文件頁碼信息集合Pfinal;
當PDF文件頁碼信息集合P中第一元素對應頁碼值與第二元素對應頁碼值之差大于pthreshold,即|p2-p1|>pthreshold時,則去除PDF文件頁碼信息集合P中第一元素對應頁碼值;當PDF文件頁碼信息集合P中倒數第一元素對應的頁碼值與倒數第二元素對應頁碼值之差大于pthreshold,即|pm-pm-1|>pthreshold時,則去除PDF文件頁碼信息集合P中倒數第一元素所對應頁碼值,得去除后的PDF文件頁碼信息集合Pfinal。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張貝貝;徐小艷;周帥鵬;荊姝娟,未經張貝貝;徐小艷;周帥鵬;荊姝娟許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710823125.8/1.html,轉載請聲明來源鉆瓜專利網。





