[發明專利]發現論壇熱帖的方法和系統有效
| 申請號: | 201410218382.5 | 申請日: | 2014-05-22 |
| 公開(公告)號: | CN103955547B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 伏峰;章正道;林勝通 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京恒都律師事務所11395 | 代理人: | 李向東 |
| 地址: | 361008 福建省廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 發現 論壇 方法 系統 | ||
1.一種發現論壇熱帖的方法,其特征在于,包括:
對論壇帖子源數據的一般特性進行匯總,獲得特征化數據;
依據所述特征化數據,將內容相似的帖子聚合成帖子簇;
綜合考慮預設影響因素計算每一個帖子簇的熱度值,將熱度值較高的帖子簇作為論壇熱帖,所述預設影響因素包括:類簇貼子數、網站權重、發帖者等級、帖子瀏覽量、回帖數量、回帖者等級、發帖時間、最后回帖時間。
2.根據權利要求1所述的發現論壇熱帖的方法,其特征在于,在執行上述各步驟之前還包括:
清理論壇帖子數據源中的不合理數據,保留有效源數據。
3.根據權利要求1所述的發現論壇熱帖的方法,其特征在于,所述對論壇帖子源數據的一般特性進行匯總,獲得特征化數據;具體包括:
對帖子的標題和正文進行分詞,將帖子轉化為形如<w1,w2,w3…wn>的詞元序列,其中,wi表示分詞后的詞元;
參照停用詞庫過濾所述詞元序列中的停用詞元,獲得有效詞元序列;
采用計數方式對所述有效詞元序列中的每個有效詞元進行計分統計;
對所述有效詞元的計分統計進行歸一化處理,獲得每個有效詞元的概率統計值;
將所述每個有效詞元的概率統計值與預設閾值λ進行比較,保留概率統計值大于預設閾值λ的詞元,并將特征提取后的每條帖子記錄表示成向量X=(<w1,c1>,<w2,c2>,<w3,c3>…<wn,cn>),其中:ci≥λ,ci表示有效詞元的出現頻率;wi表示有效詞元。
4.根據權利要求1所述的發現論壇熱帖的方法,其特征在于,所述依據特征化數據,將內容相似的帖子聚合成帖子簇;具體包括:
掃描所有特征化后的帖子記錄,采用預設計算方法計算帖子之間的相似度;
基于帖子之間的相似度與預設閾值的比較,對所述特征化后的帖子記錄進行聚類,獲得不同的帖子簇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410218382.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種燃燒或爆炸產物取樣裝置
- 下一篇:一種樹干溶液采集裝置





