[發(fā)明專利]一種按涉及重大重組主題的PDF文件切割方法在審
| 申請?zhí)枺?/td> | 201710823125.8 | 申請日: | 2017-09-13 |
| 公開(公告)號: | CN107633040A | 公開(公告)日: | 2018-01-26 |
| 發(fā)明(設計)人: | 張貝貝;徐小艷;周帥鵬;荊姝娟 | 申請(專利權)人: | 張貝貝;徐小艷;周帥鵬;荊姝娟 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22;G06F17/27 |
| 代理公司: | 西安通大專利代理有限責任公司61200 | 代理人: | 徐文權 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 涉及 重大 重組 主題 pdf 文件 切割 方法 | ||
技術領域
本發(fā)明屬于大數(shù)據(jù)研究方面的非結構化數(shù)據(jù)的數(shù)據(jù)結構化處理領域,涉及一種按涉及重大重組主題的PDF文件切割方法。
背景技術
將非結構化數(shù)據(jù)包括以WORD、EXCEL、PDF、TXT、音頻、視頻存在的文件轉換為用戶友好的、可以直接用于統(tǒng)計分析以及應用的結構化數(shù)據(jù)包括以SQL或ORCAL形式存儲的數(shù)據(jù)等是目前大數(shù)據(jù)應用領域較為迫切的需求和研究的難點。
當前針對篇幅較短PDF格式的文件的數(shù)據(jù)結構化方法已經(jīng)存在一些成果,文獻中已有的方法的主要思路為首先將源PDF文檔這一完全非結構化存在的數(shù)據(jù)轉換為→以XML或者WORD格式存在這一半結構化數(shù)據(jù)的文件,通過正則方法→最終轉換為以SQL或ORCAL形式存在的結構化的數(shù)據(jù);而這兩種思路方法均在XML或WORD文本篇幅較大時,存在轉換效率較低、轉化錯誤率較高等不足。
發(fā)明內容
本發(fā)明的目的在于克服上述現(xiàn)有技術的缺點,提供了一種按涉及重大重組主題的PDF文件切割方法,該方法能夠高效、精準的實現(xiàn)涉及重大重組主題的PDF文件切割。
為達到上述目的,本發(fā)明所述的按涉及重大重組主題的PDF文件切割方法包括以下步驟:
1)通過分布式互聯(lián)網(wǎng)爬蟲技術獲取公開的涉及重大重組主題且以PDF格式存儲的業(yè)務文件;
2)依據(jù)業(yè)務層需求對步驟1)獲取的公開的涉及重大重組主題且以PDF格式存儲的業(yè)務文件進行涉及重大重組主題的業(yè)務層分析,確定涉及重大重組主題的PDF文件的語言描述特征、關鍵字及關鍵字標題;
3)通過涉及重大重組主題的PDF文件及步驟2)所確定涉及重大重組主題的PDF文件的語言描述特征逐頁對源PDF文件進行關鍵字及關鍵字標題的正則搜索,確定包含關鍵字及關鍵字標題的PDF文件的頁碼信息集合P;
4)采用頁碼異常去除機制對步驟3)得到的PDF文件頁碼信息集合P中的異常頁碼進行去除,得去除后的PDF文件頁碼信息集合Pfinal;
5)根據(jù)步驟4)所獲得的去除后PDF文件頁碼信息集合Pfinal對源PDF文件進行關于重大重組主題的切割,完成涉及重大重組主題的PDF文件切割。
涉及重大重組主題的關鍵字和關鍵字標題集合記KRT={KRT1,KRT2,KRT3,...,KRTn},其中,KRT1表示交易方,KRT2表示交易對方,KRT3表示收購總股數(shù),KRT4表示收購總股本,KRT5表示發(fā)行股份,KRT6表示發(fā)行股份及支付現(xiàn)金,KRT7表示資產(chǎn)重組,KRT8表示重大資產(chǎn)置換,KRT9表示參與**競拍,KRT10表示與**參與定向增發(fā)的協(xié)議,KRT11表示收購,KRT12表示構成重大重組,KRT13表示交易時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張貝貝;徐小艷;周帥鵬;荊姝娟,未經(jīng)張貝貝;徐小艷;周帥鵬;荊姝娟許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710823125.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





