[發明專利]基于大數據的信息數據存儲整合系統及方法有效
| 申請號: | 202011008763.2 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112100469B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 周勃;劉紅霖;黃瀛;潘倩雯 | 申請(專利權)人: | 云寶寶大數據產業發展有限責任公司 |
| 主分類號: | G06F16/93 | 分類號: | G06F16/93;G06F40/194 |
| 代理公司: | 南寧東之智專利代理有限公司 45128 | 代理人: | 嚴涓逢 |
| 地址: | 530000 廣西壯族自治區南寧市中國(廣西)自*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 信息 存儲 整合 系統 方法 | ||
1.一種基于大數據的信息數據存儲整合系統,其特征在于,所述整合系統包括文檔信息獲取模塊、文檔選取模塊和拆分合并處理模塊,所述文檔信息獲取模塊用于獲取上一個周期內待處理文件夾中各個待合并文檔的文檔信息,所述文檔信息包括文檔名稱和最后修改時間,所述文檔選取模塊從待合并文檔中選出疑似相近文檔,再從疑似相近文檔中篩選出相近文檔,所述拆分合并處理模塊對相近文檔進行拆分合并處理;
所述文檔選取模塊包括疑似相近文檔選取模塊和相近文檔選取模塊,所述疑似相近文檔選取模塊包括第一排序獲取模塊、名稱相似度比較模塊和相關文檔數目比較模塊,所述第一排序獲取模塊用于獲取各個待合并文檔的文檔名稱的名稱長度,將各個文檔名稱按照名稱長度從短到長的順序依次排序,并設該排序為第一排序,選取第一排序中第一個文檔名稱作為對比文檔名稱,對比文檔名稱所對應的文檔為對比文檔,所述名稱相似度比較模塊比較對比文檔名稱與第一排序中其他文檔名稱的相似度,如果存在某個其他文檔名稱與對比文檔名稱的名稱相似度大于等于名稱相似度閾值,那么該其他文檔名稱所對應的文檔為對比文檔的相關文檔,所述相關文檔數目比較模塊在某對比文檔的相關文檔的文檔數目與所有待合并文檔的文檔數目之比大于等于第一比值閾值,那么對比文檔和該對比文檔的相關文檔均為疑似相近文檔,在某對比文檔的疑似相關文檔的文檔數目與所有待合并文檔的文檔數目之比小于第一比值閾值,按照第一排序的順序選取下一個文檔的名稱作為對比文檔名稱繼續進行篩選出疑似相近文檔;所述相近文檔選取模塊包括文檔名稱選取模塊、候選文檔名稱提取模塊、目標文檔名稱判斷模塊和相近文檔判斷模塊,所述文檔名稱選取模塊從各個疑似相近文檔的文檔名稱任意選取三個名稱長度不一樣的文檔名稱分別為第一文檔名稱、第二文檔名稱和第三文檔名稱,所述候選文檔名稱提取模塊從第一文檔名稱和第二文檔名稱中提取候選文檔名稱,其中,候選文檔名稱為第一文檔名稱和第二文檔名稱中的連續相同的最大部分,所述目標文檔名稱判斷模塊在候選文檔名稱長度與第一文檔名稱長度之比大于等于第二比值閾值,判斷該候選文檔名稱為目標文檔名稱,所述相近文檔判斷模塊在某個疑似相近文檔的文檔名稱中包含目標文檔名稱,判斷該疑似相近文檔為目標文檔名稱的相近文檔;
所述拆分合并處理模塊包括拆分模塊和合并處理模塊,所述拆分模塊包括拆分標準選取模塊、拆分標記設置模塊、拆分標記比較模塊、拆分位置確定模塊和拆分執行模塊,所述拆分標準選取模塊用于將某個目標文檔名稱的各個相近文檔的最后修改時間按照從早到晚順序進行排序,選取排序第一的文檔為第一文檔,排序第二的文檔為第二文檔,排序倒數第一的文檔為第三文檔,排序倒數第二的文檔為第四文檔,所述拆分標記設置模塊分別比較第一文檔與第二文檔、第三文檔與第四文檔、第二文檔與第三文檔的文檔內容,并據此在第一文檔中、第三文檔、第二文檔中分別設置第一拆分標記、第二拆分標記和第三拆分標記,所述拆分標記比較模塊比較第一拆分標記、第二拆分標記和第三拆分標記在第一文檔中、第三文檔、第二文檔中的設置,所述拆分位置確定模塊根據比較結果對第一拆分標記在第一文檔中的位置進行調整,所述拆分執行模塊用于對除第三文檔以外的每篇相近文檔進行拆分成多個分文檔;所述合并處理模塊包括分文檔排序模塊、分文檔比較模塊和分文檔存儲模塊,所述分文檔排序模塊將各個相近文檔的屬于同一個部分的分文檔按照最后修改時間從早到晚順序進行排序,所述分文檔比較模塊針對分文檔排序模塊得到的排序結果,將排在后面的分文檔依次與前面相應的分文檔進行比較,如果排在后面的分文檔與前面的分文檔內容完全相同,刪除該排在后面的分文檔,如果排在后面的分文檔與前面的分文檔內容不相同,在該排在后面的分文檔打上最后修改時間戳,所述分文檔存儲模塊創建多個分文檔文件夾,將刪除后剩余的屬于相近文檔的同一個部分的分文檔存入同一個分文檔文件夾,將所有的分文檔文件夾和第三文檔存入已合并文件夾。
2.根據權利要求1所述的一種基于大數據的信息數據存儲整合系統,其特征在于:所述拆分標記設置模塊包括比較文檔設置模塊和段落比較模塊,所述比較文檔設置模塊用于將第一文檔與第二文檔、第三文檔與第四文檔、第二文檔與第三文檔作為待比較文檔組,并在待比較文檔組中,設置一個文檔為第一待比較文檔、另一個為第二待比較文檔,所述段落比較模塊獲取第一待比較文檔和第二待比較文檔中段落文字,在第一待比較文檔和第二待比較文檔中同時存在兩個段落的開頭文字內容相同,并且位于后面的段落開頭前的空白間隔行數大于等于行數閾值時,在位于后面的段落開頭前設置拆分標記。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云寶寶大數據產業發展有限責任公司,未經云寶寶大數據產業發展有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011008763.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種熨燙機的清洗系統及其控制方法
- 下一篇:一種自發電下水道井蓋
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





