[發(fā)明專利]基于不確定性處理的網(wǎng)絡(luò)論壇用戶興趣建模方法無效
| 申請?zhí)枺?/td> | 200910199384.3 | 申請日: | 2009-11-26 |
| 公開(公告)號: | CN101719137A | 公開(公告)日: | 2010-06-02 |
| 發(fā)明(設(shè)計)人: | 曾劍平;吳承榮 | 申請(專利權(quán))人: | 復(fù)旦大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/00 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 20043*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 不確 定性處理 網(wǎng)絡(luò) 論壇 用戶 興趣 建模 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)用戶行為分析技術(shù)領(lǐng)域,具體涉及一種面向網(wǎng)絡(luò)論壇用戶興趣的建模方法。
背景技術(shù)
隨著Web2.0在互聯(lián)網(wǎng)上應(yīng)用的迅速推廣,出現(xiàn)了許多交互性很強的論壇網(wǎng)站。這些網(wǎng)站里聚集了大量的互聯(lián)網(wǎng)用戶,他們在這里發(fā)表帖子、回復(fù)帖子,對不同話題的帖子表現(xiàn)出不同的興趣。而對于許多商業(yè)應(yīng)用來說,準(zhǔn)確發(fā)現(xiàn)用戶的興趣、發(fā)現(xiàn)更多的興趣群體是業(yè)務(wù)成功開展的首要條件。因此,充分利用這些論壇網(wǎng)站中的用戶在發(fā)帖或回帖的行為,挖掘用戶的興趣,是商業(yè)應(yīng)用獲取用戶群體的一種有效途徑。
當(dāng)前,人們對于網(wǎng)絡(luò)用戶興趣的研究主要集中在用戶的搜索行為上,通過用戶輸入的關(guān)鍵詞推測用戶的興趣,模型主要采用基于話題詞空間的概率密度函數(shù),使用用戶輸入的文本作為訓(xùn)練集。也有的模型是基于用戶在瀏覽WEB頁面時所點擊的頁面的相關(guān)信息。雖然人們提出了許多方法和數(shù)學(xué)模型來表達用戶的興趣,提高用戶興趣計算的準(zhǔn)確性,但是在針對網(wǎng)絡(luò)論壇這種用戶大量聚集、以發(fā)帖或回帖為主要行為的網(wǎng)絡(luò)應(yīng)用來說,運用這些模型來建立網(wǎng)絡(luò)論壇用戶興趣時存在以下問題:
1.用戶興趣單純以概率方式描述,只能說明用戶對某個話題興趣的隨機性,而不能說明這種興趣的模糊性,而模糊性是人們分析理解用戶興趣的一個重要方面。
2.網(wǎng)絡(luò)論壇用戶發(fā)帖或回帖在次數(shù)、長度等特征上都有很大區(qū)別,這在一定程度上反映了用戶興趣的差異,而現(xiàn)有模型只對用戶的相關(guān)文本或點擊行為進行表達,必然丟失這些反映用戶興趣的重要特征。
由此可見,提高用戶興趣的隨機性和模糊性描述能力對于更合理地描述用戶興趣是非常重要的,充分利用論壇上的用戶行為特征對于準(zhǔn)確表達用戶興趣是很關(guān)鍵的,而現(xiàn)有方法在這兩方面尚無法滿足用戶興趣建模分析的要求。
發(fā)明內(nèi)容
本發(fā)明的目的主要是針對現(xiàn)有用戶興趣模型在表達網(wǎng)絡(luò)論壇用戶興趣方面的不足,提出一種基于不確定性處理的網(wǎng)絡(luò)論壇用戶興趣建模方法。
本發(fā)明在建模過程中引入隸屬函數(shù)來表達用戶的興趣,采用類似的高斯型隸屬函數(shù),基于用戶在論壇中的行為特征計算函數(shù)的參數(shù);采用文本處理方法提取用戶興趣文本,并按照不同權(quán)重配置計算用戶的興趣文本向量;將用戶興趣模型建立在由文本向量與隸屬函數(shù)論域所構(gòu)成的高維空間中,采用概率密度函數(shù)描述用戶在不同話題空間的興趣分布。
本發(fā)明的方法的具體步驟如下:
1.使用Web爬蟲技術(shù)[1]從網(wǎng)絡(luò)論壇獲取用戶發(fā)帖的原始數(shù)據(jù)文件,并運用WEB信息提取技術(shù)[2]將這些文件中的用戶發(fā)帖信息轉(zhuǎn)換成為結(jié)構(gòu)化的用戶帖子記錄集;每個記錄包含的內(nèi)容為發(fā)帖時間、帖子標(biāo)題、發(fā)帖人、帖子內(nèi)容、回帖標(biāo)志;
2.從用戶帖子記錄集中選擇指定用戶的所有帖子,如果是屬于回帖類型,則同時找出原始帖子;對其中的每個原始帖子及相應(yīng)的用戶回帖,構(gòu)成臨時帖子集;提取原始帖子、標(biāo)題的內(nèi)容,并運用現(xiàn)有的分詞及詞性標(biāo)注方法對文本進行處理,保留其中的名詞,這些名詞包括人名、地名、機構(gòu)名;得到原始帖子對應(yīng)的詞語向量和標(biāo)題對應(yīng)的詞語向量;
對帖子集執(zhí)行以下步驟3-5,處理用戶興趣的初步標(biāo)注:
3.計算該用戶在這個帖子集中出現(xiàn)的次數(shù),計算用戶在帖子集中的回帖的平均長度;
4.根據(jù)用戶發(fā)帖標(biāo)志、回帖次數(shù)及回帖長度,為用戶設(shè)定一個興趣的隸屬函數(shù)及參數(shù),該隸屬函數(shù)的論域是用戶的興趣等級;
5.提取用戶回帖的內(nèi)容,運用現(xiàn)有的分詞及詞性標(biāo)注方法對文本進行處理,保留其中的名詞,這些名詞包括含人名、地名、機構(gòu)名,得到用戶回帖對應(yīng)的詞語向量;結(jié)合第二步中的分詞結(jié)果,按照不同權(quán)重構(gòu)造用戶的興趣文本向量;
6.當(dāng)整個帖子記錄集處理完畢后,得到指定用戶對應(yīng)的所有興趣文本向量及用戶興趣隸屬函數(shù),它對應(yīng)于由文本向量和興趣論域構(gòu)成的多維空間中的點,對這些點使用EM算法建立論壇用戶興趣模型,它是一種混合高斯概率模型。
其流程見圖1所示。
本發(fā)明具有實質(zhì)性特點和顯著進步:(1)提出了一種基于隸屬函數(shù)的用戶興趣表示方法,隸屬函數(shù)的論域是用戶興趣等級,可以采用普通的隸屬函數(shù)形式,如類似高斯型隸屬函數(shù)。這種方法使得用戶興趣的表示更加接近用戶要求,更加合理。(2)利用網(wǎng)絡(luò)論壇中的用戶發(fā)帖或回帖的行為特征,計算用戶興趣的隸屬函數(shù)參數(shù),使得興趣的計算更加準(zhǔn)確。(3)將用戶興趣模型建立在興趣文本向量和用戶興趣等級所構(gòu)成的空間中,并基于混合概率表示方法,建立用戶興趣模型。使得模型既能反映用戶興趣的模糊性,又能體現(xiàn)用戶興趣的隨機性。而不象現(xiàn)有方法僅僅表達隨機性的一方面。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復(fù)旦大學(xué),未經(jīng)復(fù)旦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910199384.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





