[發明專利]文本數據分析優化方法、系統、存儲介質和計算機設備在審

申請號：	201711262752.5	申請日：	2017-12-04
公開（公告）號：	CN108255603A	公開（公告）日：	2018-07-06
發明（設計）人：	林克全;鄧凡;楊杰;胡璇;趙靜	申請（專利權）人：	廣州供電局有限公司
主分類號：	G06F9/50	分類號：	G06F9/50;G06F17/22
代理公司：	廣州華進聯合專利商標代理有限公司 44224	代理人：	黃曉慶
地址：	510620 廣***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本數據文本數據分析切割處理器核心計算機設備并行處理存儲介質子數據處理器分析獲取處理器輸入處理器分析數據計算資源數據切割大文本數據量有效地多核申請優化耗時合并
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及一種文本數據分析優化方法、系統、存儲介質和計算機設備。該方法包括：獲取處理器核心數；根據處理器核心數確定文本數據的切割數；切割文本數據，得到子文本數據；將子文本數據輸入處理器進行并行處理，得到分析子數據；將分析子數據合并得到分析數據。本申請的方案通過將待分析的文本數據根據處理器的核心數進行切割，可以將大文本數據切割成若干數據量較小的子文本數據，由處理器多核進行并行處理，充分利用了處理器核心的計算資源，能夠減少分析的耗時，有效地提高文本數據分析的效率。

技術領域

本申請涉及數據分析技術領域，特別是涉及一種文本數據分析優化方法、系統、存儲介質和計算機設備。

背景技術

數據分析是指用適當的統計方法對收集來的大量數據進行分析，以求最大化地開發數據資料的功能，發揮數據的作用，即數據分析是為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。廣義的數據分析包含數據挖掘和統計，數據挖掘是面對海量數據時的有效工具，而數據統計是為分析過程提供可靠模型和結果檢驗的有效工具。

數據分析對象包括各類信息數據，如文本、圖像和音頻等，其中，文本數據包括計算機系統的數據記錄文件，如日志文件，其在積累一段時間之后可能會快速增大，當需要抓取大文本數據文件中的部分數據或對大文本數據文件進行過濾、分析及統計時，由于數據量過大，而服務器資源有限，導致處理過程效率低下，耗時長。

發明內容

基于此，有必要針對上述問題，提供一種能有效提高文本數據分析效率的文本數據分析優化方法、系統、存儲介質和計算機設備。

一種文本數據分析優化方法，包括：

獲取處理器核心數；

根據處理器核心數，確定文本數據的切割數；

切割文本數據，得到子文本數據；

將子文本數據輸入處理器進行并行處理，得到分析子數據；

將分析子數據合并得到分析數據。

在一個實施例中，切割文本數據，得到子文本數據的步驟包括：

獲取文本數據大小，根據文本數據大小與切割數的比值，得到子文本數據大小；

讀取文本數據；