[發(fā)明專利]互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)在審
| 申請?zhí)枺?/td> | 201310172687.2 | 申請日: | 2013-05-10 |
| 公開(公告)號: | CN104142960A | 公開(公告)日: | 2014-11-12 |
| 發(fā)明(設(shè)計)人: | 顧青;倪慶洋;謝超;梁佐泉;馮四風(fēng);梁艷敏;張士鵬;田文晉;賈偉峰;田肖 | 申請(專利權(quán))人: | 上海普華誠信信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海浦一知識產(chǎn)權(quán)代理有限公司 31211 | 代理人: | 殷曉雪 |
| 地址: | 201210 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 互聯(lián)網(wǎng) 數(shù)據(jù) 分析 系統(tǒng) | ||
技術(shù)領(lǐng)域
本申請涉及一種數(shù)據(jù)挖掘(data?mining)技術(shù),特別是涉及一種對互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行分析的方法。
背景技術(shù)
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的過程。它主要基于人工智能、機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)庫、數(shù)據(jù)檢索等技術(shù)來實現(xiàn)上述目標(biāo)。
現(xiàn)有的數(shù)據(jù)挖掘過程使用一種或者固定的幾種數(shù)據(jù)分析算法構(gòu)建出數(shù)據(jù)分析系統(tǒng),由于每種算法都具有各自的優(yōu)勢和劣勢,往往造成數(shù)據(jù)分析結(jié)果之間產(chǎn)生偏差,導(dǎo)致基于數(shù)據(jù)分析的上層業(yè)務(wù)應(yīng)用難以進(jìn)行決策。
發(fā)明內(nèi)容
本申請所要解決的技術(shù)問題是提供一種互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng),可根據(jù)不同行業(yè)需求對互聯(lián)網(wǎng)數(shù)據(jù)按照一種或多種算法同時進(jìn)行挖掘分析,實現(xiàn)各種算法的優(yōu)勢互補。
為解決上述技術(shù)問題,本申請互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)包括:
數(shù)據(jù)預(yù)處理模塊,從互聯(lián)網(wǎng)的網(wǎng)頁信息中提取其主要內(nèi)容,過濾而得到每個網(wǎng)頁對應(yīng)的文本;對獲取的文本首先由分詞器得到多個分詞,再經(jīng)過特征值降維僅保留突出該文本特征的分詞;
數(shù)據(jù)分析模塊,根據(jù)分析要求,從分類算法、聚類算法、關(guān)聯(lián)規(guī)則算法、特殊規(guī)則算法這四類算法中選擇相應(yīng)的一類對多類算法,每類算法中采用一種或多種算法,對所述數(shù)據(jù)預(yù)處理模塊輸出的每個網(wǎng)頁所對應(yīng)的經(jīng)過降維后的分詞各自獨立地進(jìn)行處理,并存儲分析結(jié)果。
本申請互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)中包含了四類數(shù)據(jù)分析算法,每一類算法中又可采用一種或多種算法并可任意替換。這便避免了使用單一數(shù)據(jù)挖掘算法造成數(shù)據(jù)分析結(jié)果不準(zhǔn)確的缺陷,或在使用一種算法的基礎(chǔ)上再使用其它算法時需要進(jìn)行系統(tǒng)的二次開發(fā)的時間成本,提高了數(shù)據(jù)分析的效率和準(zhǔn)確率。
附圖說明
圖1是本申請互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)的結(jié)構(gòu)示意圖;
圖2是本申請互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)用于對互聯(lián)網(wǎng)網(wǎng)站進(jìn)行分類的一個實施例的實施方法流程圖。
圖中附圖標(biāo)記說明:
10為數(shù)據(jù)預(yù)處理模塊;20為數(shù)據(jù)分析模塊。
具體實施方式
請參閱圖1,本申請互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)包括數(shù)據(jù)預(yù)處理模塊10和數(shù)據(jù)分析模塊20。
所述數(shù)據(jù)預(yù)處理模塊10從互聯(lián)網(wǎng)的網(wǎng)頁信息中提取其主要內(nèi)容,過濾掉標(biāo)簽等無用信息,從而獲取每個網(wǎng)頁對應(yīng)的文本。對獲取的文本首先由分詞器進(jìn)行有效切分而得到多個分詞,再經(jīng)過特征值降維從中過濾掉不太重要的分詞,僅保留可以明顯突出該文本特征的分詞。
所述數(shù)據(jù)分析模塊20根據(jù)分析要求,從分類算法、聚類算法、關(guān)聯(lián)規(guī)則算法、特殊規(guī)則算法這四類算法中選擇相應(yīng)的一類或多類算法,每類算法中采用一種或多種算法,對所述數(shù)據(jù)預(yù)處理模塊10輸出的每個網(wǎng)頁所對應(yīng)的經(jīng)過降維后的分詞數(shù)據(jù)進(jìn)行處理,并存儲分析結(jié)果。
所述分類(classi?fica?tion)算法主要是通過對已知類別的文本進(jìn)行訓(xùn)練,得出訓(xùn)練模型,從而根據(jù)模型對待處理的數(shù)據(jù)進(jìn)行分類。分類算法適用于在已經(jīng)規(guī)定了類別的前提下,對數(shù)據(jù)進(jìn)行分類。常見的分類算法有svm算法、貝葉斯(bayes)算法、隨機森立(ramdom?forest)算法等。
所述聚類(clustering)算法又稱為無監(jiān)督學(xué)習(xí)算法,主要通過tf-idf(term?frequency–inverse?document?frequency、詞頻-反文檔頻率)、idf(inverse?document?frequency、反文檔頻率)等算法將文本中的分詞轉(zhuǎn)換為向量,通過比較文本中對應(yīng)向量的距離與設(shè)定閾值的大小,從而對這些文本進(jìn)行分類。聚類算法適用于在類別未知的前提下,對數(shù)據(jù)進(jìn)行分類。常見的聚類算法有k-means算法等。
所述關(guān)聯(lián)規(guī)則(Association?Rules)算法主要是從大量數(shù)據(jù)中獲取數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則算法適用于從海量數(shù)據(jù)中尋求各數(shù)據(jù)之間的關(guān)聯(lián)性。例如,美國沃爾瑪超市發(fā)現(xiàn)嬰兒尿布與啤酒被同時采購的概率很高,經(jīng)分析發(fā)現(xiàn)年輕爸爸在為孩子采購尿布的同時往往為自己采購啤酒。
所述特殊規(guī)則匹配(rules?matching)算法主要是通過大量經(jīng)驗的積累,總結(jié)出在出現(xiàn)某種規(guī)則的前提下,該文本一定屬于某個類別的一種特殊的算法。特殊規(guī)則匹配算法可與上述三類算法相結(jié)合使用。
以上四類算法均有多種已存在的實現(xiàn)方式,在此不做贅述。
請參閱圖2,下面就以一個具體實施例對本申請所述的互聯(lián)網(wǎng)數(shù)據(jù)分析系統(tǒng)進(jìn)行詳細(xì)說明,該實施例是用來分析互聯(lián)網(wǎng)網(wǎng)站的性質(zhì),至少區(qū)分為經(jīng)營性網(wǎng)站和非經(jīng)營性網(wǎng)站兩大類,這兩者的區(qū)別主要在于是否以營利為目的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海普華誠信信息技術(shù)有限公司,未經(jīng)上海普華誠信信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310172687.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:信息匹配的方法及裝置
- 下一篇:文件分類系統(tǒng)及方法
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護(hù)用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





