[發明專利]一種基于矩陣分解對在線論壇用戶影響力進行計算的方法無效
| 申請號: | 201010193841.0 | 申請日: | 2010-06-02 |
| 公開(公告)號: | CN102270204A | 公開(公告)日: | 2011-12-07 |
| 發明(設計)人: | 王捷 | 申請(專利權)人: | 上海佳艾商務信息咨詢有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200042 上海市江蘇*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 矩陣 分解 在線 論壇 用戶 影響力 進行 計算 方法 | ||
技術領域
本發明涉及一種對在線論壇用戶影響力進行計算和排名的方法,屬于對互聯網信息進行自動采集和處理的技術。
背景技術
隨著互聯網用戶的不斷增加,以及各類在線論壇的發展等,用戶在在線論壇上的各種討論話題也愈加深入和廣泛,因此針對在線論壇的用戶進行影響力的計算和排名具有潛在的科研和商業價值。特別的,擁有幾萬乃至幾十萬用戶的在線論壇并不鮮見,因此只有基于計算機程序的計算方法才具備實用意義。
發明內容
本發明要解決的問題是:對在線論壇上每個用戶的觀點影響到他人的可能性(簡稱為影響力)進行自動計算和排名。
現有評價用戶在論壇上影響力的方法是依據兩項簡單和直觀的數據:
1.發表文章數;2.文章點擊率。
文章發表數和文章點擊率這兩項數據可以從論壇的數據庫中直接獲取,但是用于評價用戶影響力有很大的局限和漏洞。譬如:
1.一些用戶雖然發表的文章總數不多,但是因為文章質量很高,能吸引很多其他用戶參與討論;因此盡管這類用戶的文章發表總數或者點擊率都未必非常高,但是實際上他們很大程度上是可能利用自己的觀點影響其他用戶的;
2.在現實中,一些個人或者商業機構會大量發表各類廣告貼來提高文章發表數,或者通過人為或自動的方式來不斷打開自己發表的文章(俗稱“刷貼”)來提高自己的文章點擊率;這些用戶雖然有很高的文章發表數或者點擊率,但是他們實際上對論壇上其他用戶的影響力是很小的。
因此簡單的采用這兩個數據是不能夠準確反映用戶的實際影響力的,同時無法避免被一些惡意行為所干擾影響結果。
為了解決上述問題,本發明的一個實施例提供了一種對在線論壇上用戶的影響力進行計算和排名的方法,方法所獲得的影響力取決于三個主要因素
1.參與某用戶發起主題(即通過回帖)的用戶數量;
2.每個參與用戶的回復數量;
3.參與用戶他們本身的影響力。
綜合考慮了這三個因素來計算影響力的方法具備兩大優點:
1.更加準確。假設用戶A,和B是具有影響力的用戶,那么如果A和B經常積極參與用戶C發起的主題討論,那么我們可以推斷用戶C也是具有影響力的,因為他的觀點可能影響到A和B,從而進一步影響到參與A和B發起主題討論的其他用戶。
2.不易被偽造。大量的廣告貼不太可能引起論壇上正常用戶的參與討論,更加不容易引起真正有影響力的用戶來參與討論。而刷屏所帶來的單純點擊率的提升,也不會納入影響力的計算。
我們會首先采集特定論壇的數據,再通過基于矩陣的數學模型來描述這三個因素,最后通過特征向量分解的算法來得到對每個用戶的影響力的評價。
本方法主要由五個子模塊組成:
第一模塊,論壇數據采集。
針對論壇,可以編寫相應的正則表達式來解析主題和回復文章的作者,內容。
在這個過程中,會同時對所有發表過文章的用戶進行編號,保證每個用戶有一個唯一對應的編號。并且將主題文章內容和主題文章作者編號,回復文章作者編號保存進數據表。
第二模塊,針對特定關鍵字進行主題過濾,通過這一步驟,可以對不同話題領域內用戶的影響力進行評估;特別的,也可以略過此步驟,則代表不限話題而在一般意義上對用戶影響力進行評估。
第三模塊,根據用戶間回復關系,生成用戶的鄰接矩陣。鄰接矩陣的每一行和每一列,都對應一個用戶,其用戶編號和行號或者列號相同;鄰接矩陣的每個元素,代表列對應用戶在行對應用戶的主題文章中回復的數量。
第四模塊,對用戶鄰接矩陣進行特征值分解,找到對應最大特征值的特征向量,特征向量的每一個元素對應一個用戶,其下標對應用戶編號,值為對應用戶的影響力數值。
第五模塊,將主特征向量按其值進行從大到小排序,即可得到用戶的影響力排名。
下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
附圖說明
圖1為一個典型的在線論壇主題列表頁面;
圖2為一個典型的在線論壇主題文章頁面;
圖3論壇主題列表,主題文章和回復文章的樹形結構表示;
圖4為用戶間回復關系和鄰接矩陣的示意圖。
具體實施方式
實施例1
本實施例提供了一種網絡文檔信息處理方法,包括:
步驟101,從在線論壇上采集文檔:
典型的論壇通常都由以下兩個主要元素組成:
1主題文章列表頁面(見圖2),其上包含主題文章鏈接通往主題文章頁面,以及翻頁鏈接通往下一個主題文章列表頁面;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海佳艾商務信息咨詢有限公司,未經上海佳艾商務信息咨詢有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010193841.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:改性聚乳酸及其制備方法與應用
- 下一篇:測試計劃書創建系統及方法





