[發明專利]文本數據分析優化方法、系統、存儲介質和計算機設備在審
| 申請號: | 201711262752.5 | 申請日: | 2017-12-04 |
| 公開(公告)號: | CN108255603A | 公開(公告)日: | 2018-07-06 |
| 發明(設計)人: | 林克全;鄧凡;楊杰;胡璇;趙靜 | 申請(專利權)人: | 廣州供電局有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F17/22 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 黃曉慶 |
| 地址: | 510620 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本數據 文本數據分析 切割 處理器核心 計算機設備 并行處理 存儲介質 子數據 處理器 分析 獲取處理器 輸入處理器 分析數據 計算資源 數據切割 大文本 數據量 有效地 多核 申請 優化 耗時 合并 | ||
本申請涉及一種文本數據分析優化方法、系統、存儲介質和計算機設備。該方法包括:獲取處理器核心數;根據處理器核心數確定文本數據的切割數;切割文本數據,得到子文本數據;將子文本數據輸入處理器進行并行處理,得到分析子數據;將分析子數據合并得到分析數據。本申請的方案通過將待分析的文本數據根據處理器的核心數進行切割,可以將大文本數據切割成若干數據量較小的子文本數據,由處理器多核進行并行處理,充分利用了處理器核心的計算資源,能夠減少分析的耗時,有效地提高文本數據分析的效率。
技術領域
本申請涉及數據分析技術領域,特別是涉及一種文本數據分析優化方法、系統、存儲介質和計算機設備。
背景技術
數據分析是指用適當的統計方法對收集來的大量數據進行分析,以求最大化地開發數據資料的功能,發揮數據的作用,即數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。廣義的數據分析包含數據挖掘和統計,數據挖掘是面對海量數據時的有效工具,而數據統計是為分析過程提供可靠模型和結果檢驗的有效工具。
數據分析對象包括各類信息數據,如文本、圖像和音頻等,其中,文本數據包括計算機系統的數據記錄文件,如日志文件,其在積累一段時間之后可能會快速增大,當需要抓取大文本數據文件中的部分數據或對大文本數據文件進行過濾、分析及統計時,由于數據量過大,而服務器資源有限,導致處理過程效率低下,耗時長。
發明內容
基于此,有必要針對上述問題,提供一種能有效提高文本數據分析效率的文本數據分析優化方法、系統、存儲介質和計算機設備。
一種文本數據分析優化方法,包括:
獲取處理器核心數;
根據處理器核心數,確定文本數據的切割數;
切割文本數據,得到子文本數據;
將子文本數據輸入處理器進行并行處理,得到分析子數據;
將分析子數據合并得到分析數據。
在一個實施例中,切割文本數據,得到子文本數據的步驟包括:
獲取文本數據大小,根據文本數據大小與切割數的比值,得到子文本數據大小;
讀取文本數據;
每當讀取到與子文本數據大小相等的數據量時,切割文本數據,得到子文本數據。
在一個實施例中,讀取文本數據的步驟包括:
采用多進程分塊讀取方式讀取文本數據。
在一個實施例中,讀取文本數據的步驟包括:
根據各處理器核心建立讀取進程;
根據切割數和子文本數據大小確定各個讀取進程的讀取起始位置;
根據讀取起始位置,通過讀取進程讀取文本數據。
在一個實施例中,讀取文本數據的步驟還包括:
獲取處理器核心的可用內存大小;
根據子文本數據大小與可用內存大小的比值調整讀取次數。
在一個實施例中,每當讀取到與子文本數據大小相等的數據量時,切割文本數據,得到子文本數據的步驟包括:
當讀取到與子文本數據大小相等的數據量時,獲取當前讀取數據在文本數據中的位置;
當當前讀取數據在文本數據中的位置為行間位置時,繼續讀取直至文本數據當前行的行尾位置,切割文本數據;
根據當前切割位置進行下一次讀取,直至讀取完文本數據,得到子文本數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州供電局有限公司,未經廣州供電局有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711262752.5/2.html,轉載請聲明來源鉆瓜專利網。





