[發(fā)明專利]基于互聯(lián)網(wǎng)海量信息的關鍵詞分類處理系統(tǒng)及其方法在審
| 申請?zhí)枺?/td> | 201811525512.4 | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN109635180A | 公開(公告)日: | 2019-04-16 |
| 發(fā)明(設計)人: | 黃蓋;吳世文;戴長江 | 申請(專利權)人: | 武漢虹旭信息技術有限責任公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/35;G06F17/27;G06N20/00 |
| 代理公司: | 武漢宇晨專利事務所 42001 | 代理人: | 黃瑞棠 |
| 地址: | 430205 湖北省武漢市江*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞分類 處理模塊 數(shù)據(jù)處理存儲 處理系統(tǒng) 過濾模塊 海量信息 收集模塊 數(shù)據(jù)接入 文本識別 文本訓練 數(shù)據(jù)源 即時通訊數(shù)據(jù) 網(wǎng)絡數(shù)據(jù)分析 復雜數(shù)據(jù) 全面分析 數(shù)據(jù)分析 傳統(tǒng)的 互聯(lián)網(wǎng) 分析 | ||
本發(fā)明公開了一種基于互聯(lián)網(wǎng)海量信息的關鍵詞分類處理系統(tǒng)及其方法,涉及即時通訊數(shù)據(jù)分析領域。本系統(tǒng)包括數(shù)據(jù)源收集模塊(10)、文本識別模塊(20)、文本訓練模塊(30)、關鍵詞分類處理模塊(40)、數(shù)據(jù)接入過濾模塊(50)、數(shù)據(jù)處理存儲模塊(60);數(shù)據(jù)源收集模塊(10)、文本識別模塊(20)、文本訓練模塊(30)和關鍵詞分類處理模塊(40)依次循環(huán)交互;數(shù)據(jù)接入過濾模塊(50)、數(shù)據(jù)處理存儲模塊(60)和關鍵詞分類處理模塊(40)依次循環(huán)交互。本發(fā)明較傳統(tǒng)的數(shù)據(jù)分析擴大了網(wǎng)絡數(shù)據(jù)分析的領域,并能倒推出復雜數(shù)據(jù)基本特征,對其相關數(shù)據(jù)進行有針對性的全面分析。
技術領域
本發(fā)明涉及即時通訊數(shù)據(jù)分析領域,尤其涉及一種基于互聯(lián)網(wǎng)海量信息的關鍵詞分類處理系統(tǒng)及其方法。
背景技術
近幾年來,隨著數(shù)據(jù)搜索的廣泛應用,Elasticsearch社區(qū)的活躍程度不斷加大,ElasticSearch得到了很大的發(fā)展空間,其角色定位已經(jīng)不是最初的純搜索引擎了,最初時包括大量的用戶僅僅將其作為日志的搜索引擎。現(xiàn)在Elasticsearch已經(jīng)增加了數(shù)據(jù)聚合分析(aggregation)和可視化的特性,針對其產(chǎn)生的應用也會越來越廣泛。如果你有數(shù)百萬的文檔需要通過關鍵詞進行定位時,ElasticSearch肯定是最佳選擇。
Word2vec是google在2013年推出的一個NLP工具,它的特點是將所有的詞向量化,這樣詞與詞之間就可以定量地去度量他們之間的關系,挖掘詞之間的聯(lián)系。
發(fā)明內容
本發(fā)明的目的就在于針對網(wǎng)絡數(shù)據(jù)分析領域,通過復雜網(wǎng)絡數(shù)據(jù)如圖像、音頻和信號等數(shù)據(jù)倒推出其基本特征,對相關源數(shù)據(jù)進行過濾,提供一種基于互聯(lián)網(wǎng)海量信息的關鍵詞的分類處理系統(tǒng)及其方法
本發(fā)明的目的技術方案是:
首先啟動數(shù)據(jù)源收集模塊,可以人工收集、下載或讀取linux、HDFS、GCS文件系統(tǒng)中的數(shù)據(jù),還能收集在文本識別模塊中經(jīng)過識別的數(shù)據(jù);數(shù)據(jù)收集后,發(fā)給文本處理模塊使用Gensim進行訓練,將機器學習訓練的參數(shù)結果進行保存,并發(fā)送給文本識別模塊用來進行匹配;此時,啟動數(shù)據(jù)接入過濾模塊,將數(shù)據(jù)發(fā)給數(shù)據(jù)處理存儲模塊;數(shù)據(jù)處理存儲模塊會進行傳統(tǒng)的數(shù)據(jù)分析并存儲數(shù)據(jù);文本識別模塊此時可讀取復雜數(shù)據(jù)進行識別,將識別出的復雜數(shù)據(jù)發(fā)給數(shù)據(jù)源收集模塊用來訓練,將識別出的復雜數(shù)據(jù)的基本特征進行提取并發(fā)給數(shù)據(jù)接入過濾系統(tǒng)進行過濾,以進行專門的分析。
具體地說:
一、基于互聯(lián)網(wǎng)海量信息的關鍵詞分類處理系統(tǒng)(簡稱系統(tǒng))
本系統(tǒng)包括數(shù)據(jù)源收集模塊、文本識別模塊、文本訓練模塊、關鍵詞分類處理模塊、數(shù)據(jù)接入過濾模塊、數(shù)據(jù)處理存儲模塊;
其交互關系是:
數(shù)據(jù)源收集模塊、文本識別模塊、文本訓練模塊和關鍵詞分類處理模塊依次循環(huán)交互;
數(shù)據(jù)接入過濾模塊、數(shù)據(jù)處理存儲模塊和關鍵詞分類處理模塊依次循環(huán)交互。
二、基于互聯(lián)網(wǎng)海量信息的關鍵詞分類處理方法(簡稱方法)
本方法包括下列步驟:
①首先啟動數(shù)據(jù)源收集模塊,人工收集、下載或讀取POSIX、HDFS、GCS文件系統(tǒng)中的數(shù)據(jù),傳輸給文本識別模塊進行識別;
②啟動文本識別模塊對傳輸過來的數(shù)據(jù)進行識別,識別結果傳輸給文本訓練模塊進行識別;
③數(shù)據(jù)進行識別后,發(fā)給文本訓練模塊對識別結果進行訓練,并將訓練的計算圖和參數(shù)結果進行保存,并發(fā)送給關鍵詞分類處理模塊用來進行分類處理;
④啟動數(shù)據(jù)接入過濾模塊,將相關的數(shù)據(jù)發(fā)給數(shù)據(jù)處理存儲模塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢虹旭信息技術有限責任公司,未經(jīng)武漢虹旭信息技術有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811525512.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理系統(tǒng)和方法
- 一種數(shù)據(jù)處理系統(tǒng)和方法
- 數(shù)據(jù)處理芯片和系統(tǒng)、數(shù)據(jù)存儲轉發(fā)處理方法
- 數(shù)據(jù)處理芯片和系統(tǒng)、數(shù)據(jù)存儲轉發(fā)和讀取處理方法
- 數(shù)據(jù)處理芯片和系統(tǒng)、數(shù)據(jù)存儲轉發(fā)處理方法
- 數(shù)據(jù)處理系統(tǒng)
- 數(shù)據(jù)處理方法和存儲設備
- 處理裝置及分布式處理系統(tǒng)
- 一種數(shù)據(jù)處理方法、裝置、終端設備及可讀存儲介質
- 數(shù)據(jù)處理方法、裝置、計算機設備和可讀存儲介質





