[發明專利]一種基于TrieTree的上市企業發展動態預測方法在審
| 申請號: | 201710693125.0 | 申請日: | 2017-08-14 |
| 公開(公告)號: | CN107480822A | 公開(公告)日: | 2017-12-15 |
| 發明(設計)人: | 鄭銳韜;李勇波;孫傲冰;季統凱 | 申請(專利權)人: | 國云科技股份有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06F17/27 |
| 代理公司: | 廣東莞信律師事務所44332 | 代理人: | 余倫 |
| 地址: | 523808 廣東省東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 trietree 上市 企業發展 動態 預測 方法 | ||
技術領域
本發明涉及大數據分析技術領域,尤其是一種基于TrieTree的上市企業發展動態預測方法。
背景技術
隨著互聯網的發展,互聯網上發布了大量的各式各樣的數據,從網上獲取數據并進行分析是一種獲取趨勢分析的有效方法。例如通過搜索關鍵詞的分析,可預測流行疾病的趨勢、網民的關注趨勢等;但這些都依賴于有主服務網站進行相關信息的收集;而且輸入的關鍵字都有相關的特定詞匯,關注的是某一個特定的分析領域。對于沒有主服務網站的用戶想對趨勢的分析,只能通過對網上的數據進行獲取并在短時間內進行分析統計,從而得出想要的領域的趨勢分析。
對于上市企業的發展動態而言,利用上市企業需在特定的網站上定時發布公告,有穩定的數據來源,從中進行定時的分析可分析出有用的信息。其特點是上市公司發布的公告,除了涉及企業的經營數據外,還包括了對相關新技術、新趨勢等的公告,其中可能涉及相關新的詞匯,如全息、AI、量子等以前沒有出現的詞匯。針對這個特點如果采用傳統的分詞方法進行分析由于分詞庫沒有這些詞匯可能無法對這些新技術、新趨勢無法進行展現,所以需對所有的公告信息的分析進行拆詞的處理;但拆詞的過程,最大的問題是信息量大,本來公告信息內容數量較多,拆詞的數量就更大了,對于這些內容多、數量大的數據的統計,需有一種高效的方法來進行處理。
發明內容
本發明方法解決的技術問題在于提供一種TrieTree的上市企業發展動態預測方法;對上市企業以后的發展方向形成一個趨勢分析。
本發明解決上述技術問題的技術方案是:
所述的方法包括以下幾個步驟:
步驟1:數據的抓取、過濾、清洗、格式化,
從上市企業特定的發布公告的網站上,抓取各企業的公告發布數據,對于信息統一轉化為文本;以文本的形式對數據進行無關符號的過濾、清洗;再按相關的標點符號,把所有的公告信息按逗號分隔的形式,形成短句子用于后續的TrieTree算法統計;
步驟2:拆詞、分析統計、排序,
對格式化的公告信息數據按短句子進行拆詞,最終按短句子的長度進行分析,把一個短句子拆分為多種長度類型的詞匯輸入TrieTree算法進行分析統計;統計結果按倒序進行排序,然后輸入結果用于再分析;
步驟3:獲取高頻詞匯、使用頻率上升較快的關鍵詞,
獲取統計后的各詞匯的數據,并按各詞匯的長度,把相關副詞、介詞等無用的數據進行處理,再按各詞匯的長度對所有的數據進行保存;獲取出使用頻率比較高的高頻詞匯;通過高頻詞匯預測上市企業發展動態;如有上一期詞匯,則與上一期的各詞匯進行對比,獲取使用頻率上升較快的關鍵詞,連用高頻詞匯預測上市企業發展動態。
分析數據抓取時,對于PDF格式的數據,轉換為文本;對于Html格式的數據,把相關的Html數據進行過濾;與文本數據的對接,可以以文件的形式,或是通過Redis等第三方的工作,進行接口形式的對接;
對特殊的標點符號,按約定的格式,轉換為以逗號為分隔的短句子,用于最終的分析。
數據分析時,
通過獲取規范化后的短句子公告信息數據,對各個短句子進行拆詞,把各短句子按從一個字、兩個字、三個字、……、至短句子的長度,分別按順序進行拆詞;拆詞后的各條數據再輸入TrieTree算法進行統計分析;
對各詞匯進行按字統計;對于中文的詞匯,以每個漢字為一個詞匯進行輸入,對所有的短句子進行拆詞輸入;
所有的短句子輸入完成后,再按字符串重復數目進行排序,返回按字符串重復數目從大到小的順序返回所有的字符信息。
數據統計時,
通過獲取按TrieTree統計后排序的各詞匯的統計數據,對特別明顯的副詞、介詞等信息進行過濾,刪除無用的詞匯,包括刪除“的”、“是”、“在”、“了”等單字的統計信息;
過濾了相關無用的信息后,把相關的高頻字進行保存,并通過可視化的方法把各高頻字進行展示;可視化展示時,可通過按各個不同長度的詞匯進行展示統計
所述的方法進行周期性的分析,分析的過程可定義以按周為周期、或是按月為周期、或是按季度為周期,分析的周期數據以數據抓取的設定為準,抓取數據的控件按設定的周期范圍,抓取該周期的公告信息數據進行分析。
所述的預測內容包括上市公司的預盈或預虧公告、轉型方向、發展什么具體新技術等信息;
所述的分析還可以結合相關搜索匹配、與前沿技術關鍵詞匹配等方法。
所述的方法包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國云科技股份有限公司,未經國云科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710693125.0/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





