[發(fā)明專利]基于不確定性處理的網(wǎng)絡(luò)論壇用戶興趣建模方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 200910199384.3 | 申請(qǐng)日: | 2009-11-26 |
| 公開(kāi)(公告)號(hào): | CN101719137A | 公開(kāi)(公告)日: | 2010-06-02 |
| 發(fā)明(設(shè)計(jì))人: | 曾劍平;吳承榮 | 申請(qǐng)(專利權(quán))人: | 復(fù)旦大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06Q30/00 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 20043*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 不確 定性處理 網(wǎng)絡(luò) 論壇 用戶 興趣 建模 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)用戶行為分析技術(shù)領(lǐng)域,具體涉及一種面向網(wǎng)絡(luò)論壇用戶興趣的建模方法。
背景技術(shù)
隨著Web2.0在互聯(lián)網(wǎng)上應(yīng)用的迅速推廣,出現(xiàn)了許多交互性很強(qiáng)的論壇網(wǎng)站。這些網(wǎng)站里聚集了大量的互聯(lián)網(wǎng)用戶,他們?cè)谶@里發(fā)表帖子、回復(fù)帖子,對(duì)不同話題的帖子表現(xiàn)出不同的興趣。而對(duì)于許多商業(yè)應(yīng)用來(lái)說(shuō),準(zhǔn)確發(fā)現(xiàn)用戶的興趣、發(fā)現(xiàn)更多的興趣群體是業(yè)務(wù)成功開(kāi)展的首要條件。因此,充分利用這些論壇網(wǎng)站中的用戶在發(fā)帖或回帖的行為,挖掘用戶的興趣,是商業(yè)應(yīng)用獲取用戶群體的一種有效途徑。
當(dāng)前,人們對(duì)于網(wǎng)絡(luò)用戶興趣的研究主要集中在用戶的搜索行為上,通過(guò)用戶輸入的關(guān)鍵詞推測(cè)用戶的興趣,模型主要采用基于話題詞空間的概率密度函數(shù),使用用戶輸入的文本作為訓(xùn)練集。也有的模型是基于用戶在瀏覽WEB頁(yè)面時(shí)所點(diǎn)擊的頁(yè)面的相關(guān)信息。雖然人們提出了許多方法和數(shù)學(xué)模型來(lái)表達(dá)用戶的興趣,提高用戶興趣計(jì)算的準(zhǔn)確性,但是在針對(duì)網(wǎng)絡(luò)論壇這種用戶大量聚集、以發(fā)帖或回帖為主要行為的網(wǎng)絡(luò)應(yīng)用來(lái)說(shuō),運(yùn)用這些模型來(lái)建立網(wǎng)絡(luò)論壇用戶興趣時(shí)存在以下問(wèn)題:
1.用戶興趣單純以概率方式描述,只能說(shuō)明用戶對(duì)某個(gè)話題興趣的隨機(jī)性,而不能說(shuō)明這種興趣的模糊性,而模糊性是人們分析理解用戶興趣的一個(gè)重要方面。
2.網(wǎng)絡(luò)論壇用戶發(fā)帖或回帖在次數(shù)、長(zhǎng)度等特征上都有很大區(qū)別,這在一定程度上反映了用戶興趣的差異,而現(xiàn)有模型只對(duì)用戶的相關(guān)文本或點(diǎn)擊行為進(jìn)行表達(dá),必然丟失這些反映用戶興趣的重要特征。
由此可見(jiàn),提高用戶興趣的隨機(jī)性和模糊性描述能力對(duì)于更合理地描述用戶興趣是非常重要的,充分利用論壇上的用戶行為特征對(duì)于準(zhǔn)確表達(dá)用戶興趣是很關(guān)鍵的,而現(xiàn)有方法在這兩方面尚無(wú)法滿足用戶興趣建模分析的要求。
發(fā)明內(nèi)容
本發(fā)明的目的主要是針對(duì)現(xiàn)有用戶興趣模型在表達(dá)網(wǎng)絡(luò)論壇用戶興趣方面的不足,提出一種基于不確定性處理的網(wǎng)絡(luò)論壇用戶興趣建模方法。
本發(fā)明在建模過(guò)程中引入隸屬函數(shù)來(lái)表達(dá)用戶的興趣,采用類似的高斯型隸屬函數(shù),基于用戶在論壇中的行為特征計(jì)算函數(shù)的參數(shù);采用文本處理方法提取用戶興趣文本,并按照不同權(quán)重配置計(jì)算用戶的興趣文本向量;將用戶興趣模型建立在由文本向量與隸屬函數(shù)論域所構(gòu)成的高維空間中,采用概率密度函數(shù)描述用戶在不同話題空間的興趣分布。
本發(fā)明的方法的具體步驟如下:
1.使用Web爬蟲(chóng)技術(shù)[1]從網(wǎng)絡(luò)論壇獲取用戶發(fā)帖的原始數(shù)據(jù)文件,并運(yùn)用WEB信息提取技術(shù)[2]將這些文件中的用戶發(fā)帖信息轉(zhuǎn)換成為結(jié)構(gòu)化的用戶帖子記錄集;每個(gè)記錄包含的內(nèi)容為發(fā)帖時(shí)間、帖子標(biāo)題、發(fā)帖人、帖子內(nèi)容、回帖標(biāo)志;
2.從用戶帖子記錄集中選擇指定用戶的所有帖子,如果是屬于回帖類型,則同時(shí)找出原始帖子;對(duì)其中的每個(gè)原始帖子及相應(yīng)的用戶回帖,構(gòu)成臨時(shí)帖子集;提取原始帖子、標(biāo)題的內(nèi)容,并運(yùn)用現(xiàn)有的分詞及詞性標(biāo)注方法對(duì)文本進(jìn)行處理,保留其中的名詞,這些名詞包括人名、地名、機(jī)構(gòu)名;得到原始帖子對(duì)應(yīng)的詞語(yǔ)向量和標(biāo)題對(duì)應(yīng)的詞語(yǔ)向量;
對(duì)帖子集執(zhí)行以下步驟3-5,處理用戶興趣的初步標(biāo)注:
3.計(jì)算該用戶在這個(gè)帖子集中出現(xiàn)的次數(shù),計(jì)算用戶在帖子集中的回帖的平均長(zhǎng)度;
4.根據(jù)用戶發(fā)帖標(biāo)志、回帖次數(shù)及回帖長(zhǎng)度,為用戶設(shè)定一個(gè)興趣的隸屬函數(shù)及參數(shù),該隸屬函數(shù)的論域是用戶的興趣等級(jí);
5.提取用戶回帖的內(nèi)容,運(yùn)用現(xiàn)有的分詞及詞性標(biāo)注方法對(duì)文本進(jìn)行處理,保留其中的名詞,這些名詞包括含人名、地名、機(jī)構(gòu)名,得到用戶回帖對(duì)應(yīng)的詞語(yǔ)向量;結(jié)合第二步中的分詞結(jié)果,按照不同權(quán)重構(gòu)造用戶的興趣文本向量;
6.當(dāng)整個(gè)帖子記錄集處理完畢后,得到指定用戶對(duì)應(yīng)的所有興趣文本向量及用戶興趣隸屬函數(shù),它對(duì)應(yīng)于由文本向量和興趣論域構(gòu)成的多維空間中的點(diǎn),對(duì)這些點(diǎn)使用EM算法建立論壇用戶興趣模型,它是一種混合高斯概率模型。
其流程見(jiàn)圖1所示。
本發(fā)明具有實(shí)質(zhì)性特點(diǎn)和顯著進(jìn)步:(1)提出了一種基于隸屬函數(shù)的用戶興趣表示方法,隸屬函數(shù)的論域是用戶興趣等級(jí),可以采用普通的隸屬函數(shù)形式,如類似高斯型隸屬函數(shù)。這種方法使得用戶興趣的表示更加接近用戶要求,更加合理。(2)利用網(wǎng)絡(luò)論壇中的用戶發(fā)帖或回帖的行為特征,計(jì)算用戶興趣的隸屬函數(shù)參數(shù),使得興趣的計(jì)算更加準(zhǔn)確。(3)將用戶興趣模型建立在興趣文本向量和用戶興趣等級(jí)所構(gòu)成的空間中,并基于混合概率表示方法,建立用戶興趣模型。使得模型既能反映用戶興趣的模糊性,又能體現(xiàn)用戶興趣的隨機(jī)性。而不象現(xiàn)有方法僅僅表達(dá)隨機(jī)性的一方面。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復(fù)旦大學(xué),未經(jīng)復(fù)旦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910199384.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





