[發(fā)明專利]一種數(shù)據(jù)的處理方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011185816.8 | 申請(qǐng)日: | 2020-10-30 |
| 公開(公告)號(hào): | CN112328806A | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計(jì))人: | 烏斯曼·可·尼亞齊 | 申請(qǐng)(專利權(quán))人: | 廣州市西美信息科技有限公司 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F16/951;G06F40/279;G06F40/30;G06F16/35;G06N20/00 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 郭浩輝;顏希文 |
| 地址: | 510000 廣東省廣州*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 處理 方法 系統(tǒng) 計(jì)算機(jī) 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)涉及一種數(shù)據(jù)的處理方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。所述方法包括:通過數(shù)據(jù)源采集目的數(shù)據(jù)流;對(duì)所述目的數(shù)據(jù)流進(jìn)行預(yù)處理,將所述目的數(shù)據(jù)流轉(zhuǎn)化為統(tǒng)一數(shù)據(jù)交換格式的文本數(shù)據(jù);對(duì)所述文本數(shù)據(jù)進(jìn)行深度機(jī)器學(xué)習(xí)后構(gòu)建行業(yè)知識(shí)圖譜,分布式存儲(chǔ)所述行業(yè)知識(shí)圖譜;根據(jù)對(duì)所述行業(yè)知識(shí)圖譜的產(chǎn)品需求,輸出數(shù)字化產(chǎn)品。通過該方法,基于大數(shù)據(jù)的處理、人工智能為支撐進(jìn)行的系統(tǒng)重構(gòu),優(yōu)化原有的業(yè)務(wù)流程,對(duì)系統(tǒng)的功能模塊進(jìn)行重新劃分,重新定義了數(shù)據(jù)處理中新產(chǎn)品的開發(fā),利用大數(shù)據(jù)分布式存儲(chǔ)技術(shù)的多備份和彈性擴(kuò)展等技術(shù)特點(diǎn),保證了數(shù)據(jù)的安全性,便于系統(tǒng)維護(hù),存儲(chǔ)容量的擴(kuò)充和性能升級(jí)。
技術(shù)領(lǐng)域
本申請(qǐng)涉及大數(shù)據(jù)領(lǐng)域,特別是涉及一種數(shù)據(jù)的處理方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù)
現(xiàn)有的數(shù)據(jù)處理平臺(tái)涵蓋報(bào)告、新聞的撰寫、質(zhì)控、發(fā)布等各環(huán)節(jié),是生產(chǎn)管理功能的一套在線協(xié)同辦公系統(tǒng),能為前臺(tái)網(wǎng)站提供數(shù)據(jù)支撐,但是該平臺(tái)系統(tǒng)已經(jīng)運(yùn)行多年,隨著業(yè)務(wù)的發(fā)展,在數(shù)據(jù)處理能力、用戶開放性能、數(shù)據(jù)獨(dú)立性等方面已經(jīng)不能滿足業(yè)務(wù)發(fā)展要求,因此,提出了新的大數(shù)據(jù)處理平臺(tái)的項(xiàng)目建設(shè)需求。
另一方面,由于傳統(tǒng)數(shù)字處理系統(tǒng)需要從數(shù)據(jù)的收集、分析、整理再到輸出運(yùn)用,每一步的業(yè)務(wù)流程需求的人員需具備的技術(shù)知識(shí)差異大,其中數(shù)據(jù)分析相關(guān)業(yè)務(wù)人員需具備較高的技術(shù)知識(shí),這導(dǎo)致整個(gè)數(shù)據(jù)處理流程成本高。例如,針對(duì)現(xiàn)在內(nèi)容數(shù)據(jù)型行業(yè)如傳媒業(yè)、產(chǎn)業(yè)研究行業(yè)的數(shù)據(jù)處理時(shí),由于數(shù)據(jù)格式不一、標(biāo)準(zhǔn)不一,無法進(jìn)行綜合利用,沒有使數(shù)據(jù)發(fā)揮出更大的價(jià)值。此外,傳統(tǒng)的存儲(chǔ)式技術(shù)由于它的不分布式架構(gòu)不能加服務(wù)器,針對(duì)海量數(shù)據(jù)的處理時(shí)需要停機(jī)升級(jí)服務(wù)器,因此傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)針對(duì)海量大數(shù)據(jù)的存儲(chǔ)讀寫存在性能不足的問題,無法快速的對(duì)海量數(shù)據(jù)進(jìn)行有效的處理。
發(fā)明內(nèi)容
基于此,有必要針對(duì)上述技術(shù)問題,提供一種數(shù)據(jù)的處理方法、系統(tǒng)計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
第一方面,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理的方法,包括以下步驟:
通過數(shù)據(jù)源采集目的數(shù)據(jù)流;
對(duì)所述目的數(shù)據(jù)流進(jìn)行預(yù)處理,將所述目的數(shù)據(jù)流轉(zhuǎn)化為統(tǒng)一數(shù)據(jù)交換格式的文本數(shù)據(jù);
對(duì)所述文本數(shù)據(jù)進(jìn)行深度機(jī)器學(xué)習(xí)后構(gòu)建行業(yè)知識(shí)圖譜,分布式存儲(chǔ)所述行業(yè)知識(shí)圖譜;
根據(jù)對(duì)所述行業(yè)知識(shí)圖譜的產(chǎn)品需求,輸出數(shù)字化產(chǎn)品。
進(jìn)一步的,所述目的數(shù)據(jù)流的采集包括利用網(wǎng)絡(luò)爬蟲技術(shù)獲取瀏覽器頁(yè)面和數(shù)據(jù)接口的入口數(shù)據(jù),所述入口數(shù)據(jù)包括非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù);所述網(wǎng)絡(luò)爬蟲技術(shù)至少包括分布式爬蟲技術(shù)、智能爬蟲技術(shù)和反爬蟲技術(shù)。
進(jìn)一步的,所述對(duì)所述目的數(shù)據(jù)流進(jìn)行預(yù)處理包括:對(duì)所述目的數(shù)據(jù)流進(jìn)行自然語(yǔ)言的處理,完成對(duì)所述目的數(shù)據(jù)流的情感分析,并對(duì)所述目的數(shù)據(jù)流進(jìn)行摘要和標(biāo)簽關(guān)鍵詞提取。
進(jìn)一步的,所述行業(yè)知識(shí)圖譜的構(gòu)建包括:對(duì)所述結(jié)構(gòu)化數(shù)據(jù)直接轉(zhuǎn)化為圖譜結(jié)構(gòu);對(duì)所述非結(jié)構(gòu)化數(shù)據(jù)和所述半結(jié)構(gòu)化數(shù)據(jù)先進(jìn)行實(shí)體關(guān)系標(biāo)注,結(jié)合深度學(xué)習(xí)算法進(jìn)行三元組的提取,并基于行業(yè)本體數(shù)據(jù)庫(kù)和行業(yè)應(yīng)用的知識(shí)庫(kù),進(jìn)行數(shù)據(jù)的融合對(duì)齊,去除重復(fù)后保存于圖形數(shù)據(jù)庫(kù)中。
進(jìn)一步的,輸出的所述數(shù)字化產(chǎn)品至少包括:專家問答系統(tǒng)界面、可視化搜索分析系統(tǒng)界面、信息推薦系統(tǒng)界面。
另一方面,本發(fā)明實(shí)施例還一種數(shù)據(jù)處理系統(tǒng),包括:
數(shù)據(jù)采集模塊,用于通過數(shù)據(jù)源采集目的數(shù)據(jù)流;
數(shù)據(jù)預(yù)處理模塊,用于對(duì)所述目的數(shù)據(jù)流進(jìn)行預(yù)處理,將所述目的數(shù)據(jù)流轉(zhuǎn)化為統(tǒng)一數(shù)據(jù)交換格式的文本數(shù)據(jù);
數(shù)據(jù)體系構(gòu)建模塊,用于對(duì)所述文本數(shù)據(jù)進(jìn)行深度機(jī)器學(xué)習(xí)后構(gòu)建行業(yè)知識(shí)圖譜,分布式存儲(chǔ)所述行業(yè)知識(shí)圖譜;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州市西美信息科技有限公司,未經(jīng)廣州市西美信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011185816.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





