[發(fā)明專利]基于鏈接與文本內(nèi)容的網(wǎng)絡(luò)社區(qū)用戶群劃分方法有效
| 申請?zhí)枺?/td> | 201310084039.1 | 申請日: | 2013-03-15 |
| 公開(公告)號: | CN103218400B | 公開(公告)日: | 2017-04-05 |
| 發(fā)明(設(shè)計(jì))人: | 閆健卓;王穎;方麗英;王普;齊孟堯 | 申請(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京思海天達(dá)知識產(chǎn)權(quán)代理有限公司11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 鏈接 文本 內(nèi)容 網(wǎng)絡(luò) 社區(qū) 用戶 劃分 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于互聯(lián)網(wǎng)絡(luò)領(lǐng)域,具體涉及一種基于鏈接與文本內(nèi)容的網(wǎng)絡(luò)社區(qū)用戶群劃分方法,旨在為網(wǎng)絡(luò)社區(qū)優(yōu)化和個(gè)性化服務(wù)提供理論基礎(chǔ)與技術(shù)手段。
背景技術(shù)
隨著Web2.0技術(shù)的發(fā)展,互聯(lián)網(wǎng)進(jìn)入了一個(gè)嶄新的階段。根據(jù)中國互聯(lián)網(wǎng)信息中心發(fā)布的第31次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告表明,中國網(wǎng)民達(dá)到5.64億,互聯(lián)網(wǎng)普及率達(dá)到42.1%。用戶數(shù)量的增長,進(jìn)一步推動(dòng)了網(wǎng)絡(luò)服務(wù)與應(yīng)用的革新與發(fā)展。網(wǎng)絡(luò)社區(qū)為人們提供了一個(gè)資源豐富的、便捷的網(wǎng)上交流平臺。在網(wǎng)絡(luò)社區(qū)中,一方面,用戶可以通過相互鏈接顯性地表現(xiàn)彼此間的關(guān)注和關(guān)聯(lián);另一方面,具有相同興趣愛好的用戶會(huì)通過發(fā)表文章、評論等信息隱性地表現(xiàn)彼此間關(guān)注和聯(lián)系。發(fā)掘存在于網(wǎng)絡(luò)社區(qū)中用戶間的顯性和隱性關(guān)系,可以客觀地反映網(wǎng)絡(luò)社區(qū)中用戶之間的關(guān)聯(lián)關(guān)系,對于發(fā)現(xiàn)完善和優(yōu)化網(wǎng)絡(luò)社區(qū)應(yīng)用服務(wù)、增加價(jià)值具有基礎(chǔ)性作用與意義。
網(wǎng)絡(luò)社區(qū)的生存往往需要經(jīng)過探索、建立、發(fā)展、成熟、滅亡五個(gè)階段,其中社區(qū)的成熟階段具有最大的用戶群和穩(wěn)定的關(guān)系網(wǎng)絡(luò),如何使得社區(qū)維持在成熟階段,保證社區(qū)的可持續(xù)發(fā)展,引起了國內(nèi)外專家學(xué)者的廣泛關(guān)注。主要圍繞如何完善網(wǎng)絡(luò)社區(qū)中檢索、好友識別等功能,提升社區(qū)的個(gè)性化和主動(dòng)式服務(wù)質(zhì)量。申請?zhí)枮镃N102929889A的專利公布了一種完善社區(qū)網(wǎng)絡(luò)的方法和系統(tǒng),利用提取網(wǎng)頁特征詞,計(jì)算語義相似的方法對網(wǎng)絡(luò)社區(qū)中每個(gè)用戶的網(wǎng)頁內(nèi)容進(jìn)行標(biāo)簽標(biāo)定,以便于優(yōu)化社區(qū)中的信息檢索;申請?zhí)枮镃N1021857872的專利公布了一種自動(dòng)識別好友的方法與系統(tǒng),通過提取用戶輸入內(nèi)容中的好友信息與好友列表進(jìn)行匹配來確認(rèn)該好友身份,提醒用戶添加新好友。但這些技術(shù)都是僅從單一用戶的表象特征著手分析,既沒有考慮到用戶隱含在文本、鏈接等內(nèi)容背后的隱性特征,也沒有認(rèn)識到分析網(wǎng)絡(luò)結(jié)構(gòu)和用戶群體特征的重要性。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提出了一種應(yīng)用鏈接分析和web文本信息分類技術(shù)相結(jié)合實(shí)現(xiàn)網(wǎng)絡(luò)社區(qū)用戶群劃分的方法,旨在為網(wǎng)絡(luò)社區(qū)應(yīng)用服務(wù)的優(yōu)化與完善提供方法和技術(shù)手段。
本發(fā)明的原理如下:
鏈接分析方法是搜索引擎中最常用與快速的方法,用于分析正向鏈接與反向鏈接的數(shù)量,以此為基礎(chǔ)對每個(gè)鏈接進(jìn)行排序形成檢索結(jié)果。事實(shí)上,鏈接分析的主要作用是分析鏈接間的緊密程度,正、反向鏈接數(shù)量越大,鏈接間的緊密程度越高。在網(wǎng)絡(luò)社區(qū)中,用戶通常會(huì)建立友情鏈接或者引用鏈接,通過對這些鏈接進(jìn)行分析,可挖掘出社區(qū)中用戶間的親疏關(guān)系,劃分網(wǎng)絡(luò)社區(qū)用戶群。
網(wǎng)絡(luò)社區(qū)用戶通過發(fā)表文章、評論即時(shí)地表現(xiàn)自己的觀點(diǎn)認(rèn)識,但對這些信息進(jìn)行收集和整理不難發(fā)現(xiàn),用戶發(fā)表的文章,關(guān)注的內(nèi)容具有一定相似性。利用web文本分類技術(shù)對每個(gè)用戶的文本信息進(jìn)行分類統(tǒng)計(jì),可清晰地分析出每個(gè)用戶的興趣偏好,根據(jù)“物以類聚,人以群分”的思想,網(wǎng)絡(luò)社區(qū)用戶群可按照相同興趣愛好進(jìn)行劃分。
本發(fā)明采用的技術(shù)方案如下:
本發(fā)明利用基于鏈接的分析方法對網(wǎng)絡(luò)社區(qū)用戶在鏈接上所表現(xiàn)出的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析,同時(shí)利用基于文本內(nèi)容的分析方法對網(wǎng)絡(luò)社區(qū)用戶在文本內(nèi)容上所表現(xiàn)的相同興趣結(jié)構(gòu)進(jìn)行分析,將二者的結(jié)果進(jìn)行差異性融合,得到具有綜合性的網(wǎng)絡(luò)社區(qū)用戶群劃分結(jié)果。在此基礎(chǔ)上,分別對每一個(gè)劃分結(jié)果運(yùn)用社會(huì)網(wǎng)絡(luò)分析方法對網(wǎng)絡(luò)密度、群半徑等多個(gè)指標(biāo)進(jìn)行評價(jià),驗(yàn)證整個(gè)網(wǎng)絡(luò)社區(qū)用戶群劃分結(jié)果的準(zhǔn)確性。若發(fā)現(xiàn)不滿足指標(biāo)要求,將按照緊密程度對該群體成員進(jìn)行篩選。以保證網(wǎng)絡(luò)社區(qū)用戶劃分結(jié)果的可靠性。
一種基于鏈接與文本內(nèi)容的網(wǎng)絡(luò)社區(qū)用戶群劃分方法,其特征在于包括以下步驟:
步驟一,利用爬蟲技術(shù)分別爬取網(wǎng)頁文本內(nèi)容(包括正文、評論)和鏈接(包括友情鏈接、引用鏈接),并分別存入文本數(shù)據(jù)庫和鏈接數(shù)據(jù)庫。
步驟二,利用基于java語言開發(fā)的中文分詞工具包IKAnalyzer對網(wǎng)頁文本內(nèi)容進(jìn)行中文分詞,利用基于支持向量機(jī)(SVM)的文本分類方法對文本進(jìn)行分類。
步驟三,統(tǒng)計(jì)每個(gè)網(wǎng)絡(luò)用戶的網(wǎng)頁文本類別,得到網(wǎng)絡(luò)社區(qū)中用戶在文本內(nèi)容中所表現(xiàn)的興趣取向,并用向量表示如下:
Characteri={I1,I2,I3,……}
其中,Character表示用戶興趣特征集合,Ii表示興趣i的特征權(quán)值。
以此為基礎(chǔ),網(wǎng)絡(luò)社區(qū)用戶興趣以矩陣形式表示如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310084039.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





