[發(fā)明專利]挖掘高效用連續(xù)序列模式的方法、裝置及計(jì)算機(jī)存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110727658.2 | 申請日: | 2021-06-29 |
| 公開(公告)號: | CN113407543A | 公開(公告)日: | 2021-09-17 |
| 發(fā)明(設(shè)計(jì))人: | 張春慨 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學(xué)(深圳) |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2458 |
| 代理公司: | 深圳市添源知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44451 | 代理人: | 于標(biāo) |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 挖掘 效用 連續(xù) 序列 模式 方法 裝置 計(jì)算機(jī) 存儲 介質(zhì) | ||
本發(fā)明公開了一種挖掘高效用連續(xù)序列模式的方法、裝置及計(jì)算機(jī)存儲介質(zhì),包括:建立映射數(shù)據(jù)庫;根據(jù)所述映射數(shù)據(jù)庫生成初始候選序列模式,并逐次作為當(dāng)前序列模式,確定當(dāng)前序列模式并統(tǒng)計(jì)其效用值和效用上界;當(dāng)效用值大于或等于閾值時(shí),確定所述當(dāng)前序列模式為高效用連續(xù)序列模式;當(dāng)效用上界大于或等于閾值時(shí),將所述當(dāng)前序列模式作為候選序列模式;在連續(xù)約束條件下,若所述候選序列模式可進(jìn)行擴(kuò)展,則在所述候選序列模式基礎(chǔ)上生成擴(kuò)展序列模式,將所述擴(kuò)展序列模式作為當(dāng)前序列模式,并根據(jù)所述當(dāng)前序列模式映射數(shù)據(jù)庫統(tǒng)計(jì)所述當(dāng)前序列模式的效用值和效用上界。本發(fā)明能夠滿足當(dāng)前點(diǎn)擊流日志挖掘分析的應(yīng)用需求。
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別是涉及一種挖掘高效用連續(xù)序列模式的方法、裝置及計(jì)算機(jī)存儲介質(zhì)。
背景技術(shù)
在互聯(lián)網(wǎng)時(shí)代,每天有許多用戶訪問不同的網(wǎng)絡(luò)站點(diǎn),從而產(chǎn)生大量點(diǎn)擊流日志。點(diǎn)擊流記錄了各個(gè)用戶的網(wǎng)頁瀏覽軌跡以及對應(yīng)的瀏覽時(shí)長等信息,它可以簡單地用一個(gè)序列來表示。例如一個(gè)點(diǎn)擊流序列:(A:1),(C:3),(D:4),(F:1)表示用戶依次瀏覽了A,C,D,F(xiàn)四個(gè)網(wǎng)頁,瀏覽時(shí)長分別為1,3,4,1個(gè)時(shí)間單位,這種類型的序列也稱為帶有效用值的序列,其中效用值指的就是瀏覽時(shí)長。通過挖掘分析點(diǎn)擊流日志中效用值總和高的序列模式,可以得出這樣的信息:用戶瀏覽完某個(gè)網(wǎng)頁后,通常瀏覽的下一個(gè)網(wǎng)頁是什么,即哪些網(wǎng)頁是高度相關(guān)的;用戶在哪些網(wǎng)頁上的瀏覽時(shí)間較長,即哪些網(wǎng)頁是用戶最感興趣的等等。利用這些信息,網(wǎng)站服務(wù)提供者在技術(shù)上可以改進(jìn)網(wǎng)站的拓?fù)浣Y(jié)構(gòu),在有高度相關(guān)性的網(wǎng)頁之間安排快速的訪問路徑,提升用戶的訪問效率;在業(yè)務(wù)上,可以在熱門網(wǎng)頁投放廣告,提高廣告曝光度;還可以根據(jù)用戶興趣來進(jìn)行網(wǎng)頁內(nèi)容推薦,改善用戶體驗(yàn)。綜上所述,通過運(yùn)用高效用序列模式挖掘技術(shù),可以獲取到網(wǎng)站點(diǎn)擊流日志中蘊(yùn)含的用戶行為規(guī)律信息,這些信息對于網(wǎng)站服務(wù)提供者而言極具價(jià)值。
當(dāng)前的高效用序列模式挖掘算法能夠挖掘出點(diǎn)擊流數(shù)據(jù)庫中的效用值高于預(yù)定閾值的所有序列模式,即高效用序列模式。但是,在點(diǎn)擊流分析這一具體的應(yīng)用場景之下,并非所有的高效用序列模式都是有意義的。例如,給定兩個(gè)點(diǎn)擊流序列:(B:10),(A:3),(C:1),(H:2),(D:1),(G:1),(F:5)和(B:9),(C:2),(F:6),最小效用閾值設(shè)置為25,我們可以得出只有模式B,F的效用值為30,高于閾值。如果將該模式返回給網(wǎng)站服務(wù)提供者,他們會誤以為用戶瀏覽完網(wǎng)頁B以后,很有可能立即瀏覽網(wǎng)頁F。然而,如以上兩個(gè)點(diǎn)擊流序列所示,實(shí)際情況并非如此,尤其是在第一個(gè)點(diǎn)擊流中,B與F之間間隔了許多個(gè)網(wǎng)頁。針對這個(gè)問題,研究者們提出了高效用連續(xù)序列模式挖掘,在高效用序列模式挖掘問題基礎(chǔ)上增加了連續(xù)約束,即挖掘出的序列模式必須是數(shù)據(jù)庫中至少一個(gè)序列的連續(xù)子序列。相對于常規(guī)的高效用序列模式,高效用連續(xù)序列模式更能反映出網(wǎng)絡(luò)用戶的連續(xù)訪問偏好。
已有的高效用連續(xù)序列模式挖掘算法只能處理每個(gè)時(shí)間點(diǎn)僅有一個(gè)事件發(fā)生的序列,在點(diǎn)擊流序列中,每個(gè)時(shí)刻用戶只能瀏覽一個(gè)網(wǎng)頁。然而在實(shí)際應(yīng)用中,存在用戶同時(shí)瀏覽多個(gè)網(wǎng)頁的情況,點(diǎn)擊流序列是更加復(fù)雜的。例如,用戶網(wǎng)購時(shí),同時(shí)打開了多個(gè)電商平臺頁面對比商品價(jià)格;用戶在瀏覽新聞門戶時(shí),可能會同時(shí)打開音樂平臺收聽音樂。類似的場景還有許多,在這種情況下,點(diǎn)擊流序列形如{(B:3)(D:4)},{(C:1)},{(H:2)(E:1)},該序列表示用戶先同時(shí)瀏覽了網(wǎng)頁B和D,然后瀏覽了C,最后同時(shí)瀏覽H和E。這種形式的序列中,一個(gè)花括號“{}”中的內(nèi)容組成一個(gè)項(xiàng)集,項(xiàng)集中的各個(gè)元素稱為項(xiàng),例如,(B:3)是上述序列的第一個(gè)項(xiàng)集中的項(xiàng)。現(xiàn)有的高效用序列模式挖掘算法,能夠處理這樣的復(fù)雜點(diǎn)擊流序列,但是它們沒有考慮連續(xù)限制。而高效用連續(xù)序列模式挖掘算法,雖然考慮了連續(xù)限制,但是不能處理復(fù)雜點(diǎn)擊流。因此,需要設(shè)計(jì)一種能夠從復(fù)雜點(diǎn)擊流中挖掘出高效用連續(xù)序列模式的方法及裝置。
此外,隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)民數(shù)量不斷增多,產(chǎn)生的點(diǎn)擊流數(shù)據(jù)量也日益龐大。現(xiàn)有的高效用連續(xù)序列模式挖掘算法在小規(guī)模數(shù)據(jù)庫上的性能良好,但是在大規(guī)模數(shù)據(jù)庫上的挖掘速度較慢,難以滿足當(dāng)下大數(shù)據(jù)挖掘的需求。如何提高算法的性能,使其在規(guī)模較大的數(shù)據(jù)庫上也能快速挖掘出有用信息,是一個(gè)亟需解決的問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué)(深圳),未經(jīng)哈爾濱工業(yè)大學(xué)(深圳)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110727658.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于效用和模糊理論的產(chǎn)品設(shè)計(jì)協(xié)同決策方法
- 一種高效用項(xiàng)集挖掘方法、裝置及數(shù)據(jù)處理設(shè)備
- 一種基于OFDMA多小站中效用和與效用能效的資源分配方法
- 一種減少候選項(xiàng)集的數(shù)據(jù)流高效用項(xiàng)集挖掘算法
- 一種高效用序列模式挖掘方法及裝置
- 模塊化運(yùn)載工具系統(tǒng)
- 高效用序列模式處理方法、裝置和計(jì)算機(jī)設(shè)備
- 一種消息推送方法、裝置及設(shè)備
- 挖掘全局高效用項(xiàng)集的方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 一種含負(fù)效用的高效用項(xiàng)集挖掘方法





