[發明專利]文本數據分析優化方法、系統、存儲介質和計算機設備在審
| 申請號: | 201711262752.5 | 申請日: | 2017-12-04 |
| 公開(公告)號: | CN108255603A | 公開(公告)日: | 2018-07-06 |
| 發明(設計)人: | 林克全;鄧凡;楊杰;胡璇;趙靜 | 申請(專利權)人: | 廣州供電局有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F17/22 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 黃曉慶 |
| 地址: | 510620 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本數據 文本數據分析 切割 處理器核心 計算機設備 并行處理 存儲介質 子數據 處理器 分析 獲取處理器 輸入處理器 分析數據 計算資源 數據切割 大文本 數據量 有效地 多核 申請 優化 耗時 合并 | ||
1.一種文本數據分析優化方法,其特征在于,包括:
獲取處理器核心數;
根據所述處理器核心數,確定文本數據的切割數;
切割所述文本數據,得到子文本數據;
將所述子文本數據輸入處理器進行并行處理,得到分析子數據;
將所述分析子數據合并得到分析數據。
2.根據權利要求1所述的文本數據分析優化方法,其特征在于,所述切割所述文本數據,得到子文本數據的步驟包括:
獲取文本數據大小,根據所述文本數據大小與所述切割數的比值,得到子文本數據大小;
讀取所述文本數據;
每當讀取到與所述子文本數據大小相等的數據量時,切割所述文本數據,得到所述子文本數據。
3.根據權利要求2所述的文本數據分析優化方法,其特征在于,所述讀取所述文本數據的步驟包括:
采用多進程分塊讀取方式讀取所述文本數據。
4.根據權利要求2所述的文本數據分析優化方法,其特征在于,所述讀取所述文本數據的步驟包括:
根據各處理器核心建立讀取進程;
根據所述切割數和所述子文本數據大小確定各個所述讀取進程的讀取起始位置;
根據所述讀取起始位置,通過所述讀取進程讀取所述文本數據。
5.根據權利要求4所述的文本數據分析優化方法,其特征在于,所述讀取所述文本數據的步驟還包括:
獲取所述處理器核心的可用內存大小;
根據所述子文本數據大小與所述可用內存大小的比值調整讀取次數。
6.根據權利要求2所述的文本數據分析優化方法,其特征在于,所述每當讀取到與所述子文本數據大小相等的數據量時,切割所述文本數據,得到所述子文本數據的步驟包括:
當讀取到與所述子文本數據大小相等的數據量時,獲取當前讀取數據在所述文本數據中的位置;
當所述當前讀取數據在所述文本數據中的位置為行間位置時,繼續讀取直至所述文本數據當前行的行尾位置,切割所述文本數據;
根據當前切割位置進行下一次讀取,直至讀取完所述文本數據,得到所述子文本數據。
7.根據權利要求1所述的文本數據分析優化方法,其特征在于,所述將所述分析子數據合并得到分析數據的步驟包括:
通過文件鎖命令和管道命令將所述分析子數據依次匯入同一管道進行合并,得到所述分析數據。
8.一種文本數據分析優化系統,其特征在于,包括:
核心數獲取模塊,用于獲取處理器核心數;
切割數確定模塊,用于根據所述處理器核心數,確定文本數據的切割數;
子文本數據獲取模塊,用于切割所述文本數據,得到子文本數據;
分析子數據獲取模塊,用于將所述子文本數據輸入所述處理器進行并行處理,得到所述分析子數據;
分析數據獲取模塊,用于將所述分析子數據合并得到分析數據。
9.一種計算機可讀存儲介質,存儲有計算機程序,所述計算機程序被處理器執行時,使得所述處理器執行如權利要求1至7中任一項所述文本數據分析優化方法的步驟。
10.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執行時,使得所述處理器執行如權利要求1至7中任一項所述文本數據分析優化方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州供電局有限公司,未經廣州供電局有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711262752.5/1.html,轉載請聲明來源鉆瓜專利網。





