[發明專利]發現論壇熱帖的方法和系統有效
| 申請號: | 201410218382.5 | 申請日: | 2014-05-22 |
| 公開(公告)號: | CN103955547B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 伏峰;章正道;林勝通 | 申請(專利權)人: | 廈門市美亞柏科信息股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京恒都律師事務所11395 | 代理人: | 李向東 |
| 地址: | 361008 福建省廈門*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 發現 論壇 方法 系統 | ||
技術領域
本發明涉及互聯網信息技術領域,特別地,涉及一種發現論壇熱帖的方法和系統。
背景技術
隨著互聯網的飛速發展,網絡媒體已被公認為是繼報紙、廣播、電視之后的“第四媒體”。由于網絡媒體與傳統媒體在傳播載體和傳播方式上的不同,將導致網絡輿論熱點、焦點層出不窮,而這些信息的產生將對社會產生巨大影響。因此,有必要對這些熱點信息的正確性及傳播范圍進行有效管理。論壇作為輿情傳播最常用的媒介之一,對其更需有效管理。
目前論壇熱帖發現技術主要分為三類:基于頻率統計方法,首先對相似帖子進行聚類,如果某類別的帖子數居多,則認為是熱帖。基于數學模型的方法,例如“牛頓冷卻定律”算法,它將把熱貼排名想象成一個自然冷卻的過程,任一時刻,論壇網站中所有的帖子,都有一個當前溫度,溫度最高的帖子就認為是熱帖。基于語義的方法,利用自然語言的語義特征發現論壇熱帖。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:基于頻率統計方法雖然操作便利,但是計算方法過于簡單,僅僅把類簇中的帖子數作為衡量熱度的唯一標準,完全忽視了其他因素對熱帖排名的影響。基于數學模型的方法雖然將熱帖發現問題轉化為更一般的數學問題,更具普遍性,但是計算過程相對復雜。基于語義的方法從語義角度判斷,較符合人們的感知邏輯,也是目前該領域的一個研究熱點,但基于語義的文本理解技術尚未達到實用程度,所以也僅僅是停留在研究階段。
總之,需要本領域技術人員迫切解決的一個技術問題就是:提供一種能夠綜合考慮貼子標題、帖子正文內容、發帖人等級、發帖時間、瀏覽量、帖子鏈接、域名、回帖信息等多種因素的發現熱帖的方法。
發明內容
本發明所要解決的技術問題是提供一種發現論壇熱帖的方法,能夠綜合考慮多種影響因素,更加有效、客觀、準確地發現論壇熱帖。
為了解決上述問題,一方面提供了一種發現論壇熱帖的方法,包括:對論壇帖子源數據的一般特性進行匯總,獲得特征化數據;依據所述特征化數據,將內容相似的帖子聚合成帖子簇;綜合考慮預設影響因素計算每一個帖子簇的熱度值,將熱度值較高的帖子簇作為論壇熱帖,所述預設影響因素包括:類簇貼子數、網站權重、發帖者等級、帖子瀏覽量、回帖數量、回帖者等級、發帖時間、最后回帖時間。
可選的,在執行上述各步驟之前還包括:清理論壇帖子數據源中的不合理數據,保留有效源數據。
可選的,所述對論壇帖子源數據的一般特性進行匯總,獲得特征化數據;具體包括:
對帖子的標題和正文進行分詞,將帖子轉化為形如<w1,w2,w3…wn>的詞元序列,其中,wi表示分詞后的詞元;
參照停用詞庫過濾所述詞元序列中的停用詞元,獲得有效詞元序列;
采用計數方式對所述有效詞元序列中的每個有效詞元進行計分統計;
對所述有效詞元的計分統計進行歸一化處理,獲得每個有效詞元的概率統計值;
將所述每個有效詞元的概率統計值與預設閾值λ進行比較,保留概率統計值大于預設閾值λ的詞元,并將特征提取后的每條帖子記錄表示成向量X=(<w1,c1>,<w2,c2>,<w3,c3>…<wn,cn>),其中:ci≥λ,ci表示有效詞元的出現頻率;wi表示有效詞元。
可選的,所述依據特征化數據,將內容相似的帖子聚合成帖子簇;具體包括:
掃描所有特征化后的帖子記錄,采用預設計算方法計算帖子之間的相似度;
基于帖子之間的相似度與預設閾值的比較,對所述特征化后的帖子記錄進行聚類,獲得不同的帖子簇。
可選的,計算帖子之間相似度的方法包括:
余弦值相似度計算法:
Sim(X,Y)=(X*Y)/(||X||*||Y||);或者,
曼哈頓距離相似度計算法:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司,未經廈門市美亞柏科信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410218382.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種燃燒或爆炸產物取樣裝置
- 下一篇:一種樹干溶液采集裝置





