[發(fā)明專利]融入簇存在強(qiáng)度的數(shù)據(jù)流聚類方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410314647.1 | 申請(qǐng)日: | 2014-07-03 |
| 公開(公告)號(hào): | CN104090950B | 公開(公告)日: | 2017-04-12 |
| 發(fā)明(設(shè)計(jì))人: | 琚春華;鮑福光;肖亮;魏建良 | 申請(qǐng)(專利權(quán))人: | 浙江工商大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 杭州裕陽專利事務(wù)所(普通合伙)33221 | 代理人: | 應(yīng)圣義 |
| 地址: | 310018 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 融入 存在 強(qiáng)度 數(shù)據(jù)流 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及web技術(shù)領(lǐng)域,特別涉及一種融入簇存在強(qiáng)度的數(shù)據(jù)流聚類方法。
背景技術(shù)
在電子商務(wù)推薦系統(tǒng)中,用戶信息的獲取通常來源于用戶提交的注冊(cè)信息顯示信息和用戶搜索關(guān)鍵詞、瀏覽時(shí)間、購買行為等隱式信息,但是用戶和電子商務(wù)網(wǎng)站之間往往存在兩難問題:用戶出于對(duì)個(gè)人隱私信息的保護(hù),不愿意將個(gè)人信息提供給系統(tǒng),調(diào)查顯示80%的用戶在填寫調(diào)查問卷是可以提供性別、年齡、教育背景、地域的信息,但是對(duì)于收入水平、職業(yè)等更為隱私的信息是不希望透露的;同時(shí)網(wǎng)站運(yùn)營商,非常渴望獲取用戶的更多信息,從而更好的挖掘客戶,掌握客戶需求,以此來提高推薦系統(tǒng)的質(zhì)量。目前多數(shù)網(wǎng)站運(yùn)營商采取隱式方法觀察用戶的興趣,然而由于處理技術(shù)、獲取方式等原因,使得獲取的用戶信息多數(shù)是有殘缺值的、不完全的,即數(shù)據(jù)元組不一定符合客觀事實(shí),是具有一定的概率的。但是,目前國內(nèi)外關(guān)于Web用戶分析是針對(duì)確定型數(shù)據(jù)的,因此本發(fā)明針對(duì)此類問題,將不確定數(shù)據(jù)模型引入到用戶分析中,提出了融入不確定性的Web用戶分析方法;同時(shí)針對(duì)現(xiàn)有的不確定數(shù)據(jù)流的研究中并沒有考慮到簇的存在強(qiáng)度對(duì)聚類的影響問題,本發(fā)明提出了簇存在強(qiáng)度的概念,研究融入距離、簇存在概率及簇存在強(qiáng)度三重因素的不確定數(shù)據(jù)流聚類方法。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)無法充分發(fā)揮簇的存在強(qiáng)度對(duì)于聚類的影響的缺點(diǎn),提供了一種融入簇存在強(qiáng)度的數(shù)據(jù)流聚類方法,可以實(shí)現(xiàn)應(yīng)用簇的存在強(qiáng)度調(diào)整數(shù)據(jù)流聚類的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明可采取下述技術(shù)方案:
一種融入簇存在強(qiáng)度的數(shù)據(jù)流聚類方法,包括以下的具體步驟:
預(yù)處理步驟:對(duì)特定用戶的用戶特征信息進(jìn)行處理以形成用戶屬性數(shù)據(jù)庫,所述用戶特征信息是指包括用戶背景信息以及用戶行為信息的可以用人機(jī)交互界面或者人機(jī)交互裝置進(jìn)行數(shù)據(jù)采集并可以轉(zhuǎn)化為可以用特定長度和格式的數(shù)據(jù)串進(jìn)行表征的用戶屬性數(shù)據(jù),所述用戶屬性數(shù)據(jù)庫用于存放所述用戶屬性數(shù)據(jù);
用戶聚類步驟:將至少兩個(gè)用戶的用戶屬性數(shù)據(jù)集合形成用戶群屬性庫,其中,用于形成用戶群屬性庫的用戶屬性數(shù)據(jù)包括用戶不確定性數(shù)據(jù)流,所述用戶不確定性數(shù)據(jù)流由至少兩個(gè)元組組成,所述元組包括用戶屬性數(shù)據(jù)以及表征所述用戶屬性數(shù)據(jù)的出現(xiàn)的不確定性的存在概率,所述存在概率通過賦予所述用戶屬性數(shù)據(jù)以一個(gè)隨機(jī)變量得到,所述隨機(jī)變量是指在一定的給定區(qū)域上符合概率分布的隨機(jī)量,所述給定區(qū)域是指在一定的時(shí)間范圍內(nèi)用戶屬性數(shù)據(jù)的變化區(qū)域;
關(guān)聯(lián)規(guī)則步驟:依據(jù)用戶群屬性數(shù)據(jù)庫所包含的用戶屬性數(shù)據(jù)形成關(guān)聯(lián)規(guī)則,并將所述關(guān)聯(lián)規(guī)則存放于用戶行為規(guī)則庫,所述關(guān)聯(lián)規(guī)則是指用戶屬性數(shù)據(jù)的可以用初等函數(shù)進(jìn)行表示的變化趨勢(shì);
漂移檢測(cè)步驟:對(duì)不同時(shí)間段內(nèi)所產(chǎn)生的關(guān)聯(lián)規(guī)則進(jìn)行檢測(cè),生成最終的用戶行為規(guī)則,并將所生成的用戶行為規(guī)則作為數(shù)據(jù)流聚類方法。
于本發(fā)明的實(shí)施例中,還包括以下具體步驟:
雙區(qū)聚類步驟:組建簇,所述簇由至少兩個(gè)元組構(gòu)成;創(chuàng)建微簇,所述微簇至少包括二階矩CF2、一階矩CF1、存在概率APC、微簇創(chuàng)建時(shí)間tS、微簇最后更新時(shí)間te、樣本容量n、簇編號(hào)CID、分區(qū)編號(hào)MID,其中,所述微簇與簇一一對(duì)應(yīng),所述二階矩CF2是指簇的連續(xù)變量的二階矩,所述一階矩CF1是指簇的連續(xù)變量的一階矩,所述分區(qū)編號(hào)MID是指微簇所在分區(qū)的編號(hào);進(jìn)行雙區(qū)聚類,所述雙區(qū)聚類是指將簇劃分為兩類:主緩沖區(qū)Bufc簇以及副緩沖區(qū)Bufo簇,所述主緩沖區(qū)Bufc簇是指當(dāng)對(duì)一個(gè)新元組進(jìn)行聚類時(shí),首先在主緩沖區(qū)Bufc中進(jìn)行聚類得到的簇,所述主緩沖區(qū)Bufc簇是指當(dāng)主緩沖區(qū)Bufc中的簇不適合新元組時(shí),則在副緩沖區(qū)Bufo中進(jìn)行聚類得到的簇,所述不適合是指新元組的加入會(huì)令被加入的簇的存在強(qiáng)度發(fā)生超出預(yù)設(shè)閾值的改變。
于本發(fā)明的實(shí)施例中,所述雙區(qū)聚類步驟還包括,當(dāng)副緩沖區(qū)Bufo中的簇不適合新元組時(shí),將該新元組思維全局離散點(diǎn),做丟棄處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工商大學(xué),未經(jīng)浙江工商大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410314647.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種增強(qiáng)尼龍包容鋼齒輪
- 一種增強(qiáng)尼龍包容鋼齒輪
- 融入式市場(chǎng)系統(tǒng)和方法
- 煤矸石淋濾液消融入滲土柱模擬系統(tǒng)及特征參數(shù)測(cè)定方法
- 煤矸石淋濾液消融入滲室內(nèi)土柱模擬裝置
- 將句子權(quán)重融入神經(jīng)機(jī)器翻譯的領(lǐng)域適應(yīng)方法
- 融入依存關(guān)系的神經(jīng)機(jī)器翻譯方法
- 基于虛擬現(xiàn)實(shí)及多模態(tài)信息的孤獨(dú)癥輔助干預(yù)系統(tǒng)及方法
- 一種基于生成對(duì)抗網(wǎng)絡(luò)的視頻廣告融入系統(tǒng)與方法
- 基于融入空間信息的加權(quán)伽馬混合模型的SAR影像分割方法
- 骨強(qiáng)度診斷裝置及骨強(qiáng)度診斷方法
- 復(fù)合袋封口強(qiáng)度、耐壓強(qiáng)度及耐破強(qiáng)度測(cè)試裝置
- 一種強(qiáng)度磚強(qiáng)度檢測(cè)設(shè)備
- 高強(qiáng)度螺栓剪切強(qiáng)度演示裝置
- 高強(qiáng)度螺栓的強(qiáng)度增加方法
- 強(qiáng)度檢測(cè)裝置以及強(qiáng)度檢測(cè)方法
- 凝集強(qiáng)度判讀儀和凝集強(qiáng)度判讀架
- 高強(qiáng)度玻璃用檢測(cè)強(qiáng)度裝置
- 高強(qiáng)度殼體和高強(qiáng)度殼體板材及強(qiáng)度增強(qiáng)方法
- 高強(qiáng)度鋼筋等強(qiáng)度壓接機(jī)
- 編碼裝置,編碼方法,程序和記錄媒體
- 網(wǎng)絡(luò)數(shù)據(jù)流識(shí)別系統(tǒng)及方法
- 一種數(shù)據(jù)流調(diào)度的方法、設(shè)備和系統(tǒng)
- 一種確定待清洗數(shù)據(jù)流的方法及裝置
- 用于分析儀器化軟件的數(shù)據(jù)流處理語言
- 用于數(shù)據(jù)流系統(tǒng)的數(shù)據(jù)流處理方法及裝置
- 數(shù)據(jù)流調(diào)度系統(tǒng)以及數(shù)據(jù)流調(diào)度方法
- 采用向量處理的同時(shí)分割
- 汽車數(shù)據(jù)流的監(jiān)控方法、系統(tǒng)及可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)流類型識(shí)別模型更新方法及相關(guān)設(shè)備





