[發明專利]基于用戶興趣挖掘的微博詞云生成方法及訪問支持系統有效
| 申請號: | 201410020292.5 | 申請日: | 2014-01-16 |
| 公開(公告)號: | CN103793481B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 汪美玲;陶秋銘;周翔;李梅;趙琛 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 余長江 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 用戶 興趣 挖掘 微博詞云 生成 方法 訪問 支持系統 | ||
1.一種基于用戶興趣挖掘的微博詞云生成方法,其步驟包括:
1)給定當前登錄用戶所關注用戶新發布的一個微博消息集,從所述微博消息集中抽取出一個關鍵詞集;
2)分別基于用戶關系、基于關鍵詞的相似度計算所述當前登錄用戶對所述關鍵詞集中各個關鍵詞的興趣度,并將計算所得的兩種興趣度融合,得到最終興趣度;
3)根據興趣度的值從所述關鍵詞集中選擇k個關鍵詞,其中k為事先給定的正整數,并在一個區域內顯示所選擇出的k個關鍵詞,以將所述k個關鍵詞構成的微博詞云可視化地呈現給用戶。
2.如權利要求1所述的方法,其特征在于,步驟1)中抽取關鍵詞集的方法是:令初始關鍵詞集為空,對所述微博消息集中每條微博消息的文本進行分詞,去掉其中與該微博消息的主要內容無關的詞語,包括助詞、介詞、連詞、語氣詞和嘆詞,保留反映該微博消息的主要內容的詞語,包括描述事件、主題、人物和地點的詞語,并將所保留的全部關鍵詞加入關鍵詞集中。
3.如權利要求1所述的方法,其特征在于,步驟2)計算所述興趣度的步驟包括:
2a)基于用戶關系計算當前登錄用戶u對所述關鍵詞集中任意關鍵詞w的興趣度,u與對w感興趣的微博用戶越相似,則u對w越有可能具有較高的興趣度:
首先,對于u及其任意關注用戶v,將用戶基本信息、所關注用戶或者發布、評價、轉發的微博消息中所包含的關鍵詞作為特征,以特征集合為依據,利用集合之間的相似關系計算u與v之間的相似度s1(u,v);
其次,根據一個關鍵詞在一個用戶過去一段時間內發布、評價、轉發的微博消息中所出現的頻率計算v對w的興趣因子p(v,w),該時間段可由所述當前登錄用戶配置;
最后,對于u所關注的全部用戶,根據u與這些用戶的相似度以及這些用戶對w的興趣因子,計算u對w的興趣度,其公式如下:
其中U表示u所關注的全部用戶的集合;
2b)基于關鍵詞的相似度計算所述當前登錄用戶u對所述關鍵詞集中任意關鍵詞w的興趣度,w與u之前感興趣的關鍵詞越相似,則u對w越有可能具有較高的興趣度:
首先,對于u之前發布、評價、轉發的微博消息中所包含的任意關鍵詞w',依據關鍵詞所出現在的微博消息集合之間的相似關系,計算w與w'之間的相似度s2(w,w');
其次,根據一個關鍵詞在一個用戶過去一段時間內發布、評價、轉發的全部微博消息中所出現的頻率計算u對w'的興趣因子p(u,w'),該時間段可由所述當前登錄用戶配置;
最后,對于u發布、評價、轉發的全部微博消息中所包含的關鍵詞,根據w與這些關鍵詞的相似度以及u對這些關鍵詞的興趣因子,計算u對w的興趣度,其公式如下:
其中W(u)表示u發布、評價、轉發的全部微博消息中所包含的關鍵詞的集合;
2c)將基于用戶關系計算的興趣度與基于關鍵詞的相似度計算的興趣度融合,計算u對w的最終興趣度,其公式如下:
f(u,w)=λ·fr(u,w)+(1-λ)·fs(u,w),其中0≤λ≤1是權重系數。
4.如權利要求3所述的方法,其特征在于:步驟2c)取λ=0.5,表示兩種興趣度具有相同的權重值。
5.如權利要求1所述的方法,其特征在于:步驟3)選擇的k個關鍵詞是興趣度最高的k個關鍵詞,k遠遠小于所述關鍵詞集的大小。
6.如權利要求1所述的方法,其特征在于,步驟3)顯示所選擇出的k個關鍵詞的步驟包括:
3a)按照興趣度大小、字母順序或隨機順序排列各個關鍵詞;
3b)依據興趣度大小決定各個關鍵詞顯示時的字體大小,計算關鍵詞w的字體大小z(w)的公式如下:
其中fmin與fmax分別表示k個關鍵詞中的最小興趣度與最大興趣度,zmin與zmax分別表示顯示的最小字體與最大字體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410020292.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:路徑搜索方法及裝置
- 下一篇:基于MVC的分頁查詢系統





