[發(fā)明專利]一種挖掘社區(qū)領(lǐng)域?qū)<业姆椒ê脱b置有效
| 申請?zhí)枺?/td> | 201210438456.7 | 申請日: | 2012-11-06 |
| 公開(公告)號: | CN103810169B | 公開(公告)日: | 2018-01-09 |
| 發(fā)明(設(shè)計)人: | 賀翔;亓超;王業(yè) | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市深佳知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 挖掘 社區(qū) 領(lǐng)域 專家 方法 裝置 | ||
1.一種挖掘社區(qū)領(lǐng)域?qū)<业姆椒ǎ涮卣髟谟冢ǎ?/p>
獲取用戶輸入的主題詞;
根據(jù)所述主題詞獲取文章列表;所述文章列表中記錄具有所述主題詞的文章、每篇文章對應(yīng)的作者以及每篇文章的用戶評價參數(shù),所述用戶評價參數(shù)包括用戶轉(zhuǎn)發(fā)量、用戶評論數(shù),以及用戶好評數(shù);
根據(jù)所述用戶評價參數(shù)統(tǒng)計文章的熱度和質(zhì)量,以及根據(jù)所述主題詞統(tǒng)計文章與主題詞間的相關(guān)性;
根據(jù)所述文章的熱度、質(zhì)量,以及文章與主題詞間的相關(guān)性,統(tǒng)計每個作者的影響力;
選取影響力超過預(yù)定的影響力閾值的作者作為社區(qū)領(lǐng)域?qū)<摇?/p>
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述用戶評價參數(shù)統(tǒng)計文章的熱度和質(zhì)量,包括:
根據(jù)公式H(x)=log(用戶轉(zhuǎn)發(fā)量)+log(用戶評論數(shù)),獲得文章x的熱度H(x);
和根據(jù)公式Q(x)=log(用戶好評數(shù)),獲得文章x的質(zhì)量Q(x)。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)主題詞統(tǒng)計文章與主題詞間的相關(guān)性,包括:
根據(jù)公式獲得文章x與主題詞t間的相關(guān)性;其中:TFt表示所述主題詞t在所述文章中出現(xiàn)的次數(shù);
i表示文章中除所述主題詞t之外的詞語;
TFi表示第i個詞在所述文章中出現(xiàn)的次數(shù);IDFt表示所述主題詞t的idf值;IDFi表示第i個詞的idf值;idf為文檔頻率的倒數(shù),文檔頻率是在所有文章集合中,出現(xiàn)過第i個詞的文章數(shù)目。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述文章的熱度、質(zhì)量,以及文章與主題詞間的相關(guān)性,統(tǒng)計每個作者的影響力,包括:
根據(jù)公式獲取作者u的影響力;其中z為作者u對應(yīng)的z篇文章,a,b為常數(shù),其中0<a﹤1,0<b﹤1,f(t)為文章的時間衰減函數(shù)。
5.一種挖掘社區(qū)領(lǐng)域?qū)<业难b置,其特征在于,包括:
主題詞獲取單元,用于獲取用戶輸入的主題詞;
文章列表獲取單元,用于根據(jù)主題詞獲取文章列表;
所述文章列表中記錄具有主題詞的文章、每篇文章對應(yīng)的作者以及每篇文章的用戶評價參數(shù),所述用戶評價參數(shù)包括用戶轉(zhuǎn)發(fā)量、用戶評論數(shù),以及用戶好評數(shù);
文章的熱度和質(zhì)量獲取單元,用于根據(jù)所述用戶評價參數(shù)獲取文章的熱度和質(zhì)量;
相關(guān)性統(tǒng)計單元,用于根據(jù)主題詞統(tǒng)計文章與主題詞間的相關(guān)性;
影響力統(tǒng)計單元,用于根據(jù)所述文章的熱度、質(zhì)量,以及文章與主題詞間的相關(guān)性,統(tǒng)計每個作者的影響力;
社區(qū)領(lǐng)域?qū)<疫x取單元,用于選取影響力超過預(yù)定的影響力閾值的作者作為社區(qū)領(lǐng)域?qū)<摇?/p>
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述用戶評價參數(shù)包括用戶轉(zhuǎn)發(fā)量、用戶評論數(shù)和用戶好評數(shù);
所述文章的熱度和質(zhì)量統(tǒng)計單元,包括:
文章熱度獲取子單元,用于根據(jù)公式H(x)=log(用戶轉(zhuǎn)發(fā)量)+log(用戶評論數(shù)),獲取文章x的熱度H(x);
文章質(zhì)量獲取子單元,用于根據(jù)公式Q(x)=log(用戶好評數(shù)),獲取文章x的質(zhì)量Q(x)。
7.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述相關(guān)性統(tǒng)計單元,包括:
相關(guān)性統(tǒng)計子單元,
用于根據(jù)公式獲取文章x與主題詞t間的相關(guān)性;其中:TFt表示所述主題詞t在所述文章中出現(xiàn)的次數(shù);i表示文章中除所述主題詞t之外的詞語;TFi表示第i個詞在所述文章中出現(xiàn)的次數(shù);IDFt表示所述主題詞t的idf值;IDFi表示第i個詞的idf值;idf為文檔頻率的倒數(shù),文檔頻率是在所有文章集合中,出現(xiàn)過第i個詞的文章數(shù)目。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述影響力統(tǒng)計單元,包括:
影響力統(tǒng)計子單元,
用于根據(jù)公式獲取作者u的影響力;其中z為作者u對應(yīng)的z篇文章,a,b為常數(shù),其中0<a﹤1,0<b﹤1,f(t)為文章的時間衰減函數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210438456.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





