[發明專利]一種基于微博的知識推薦方法與系統有效
| 申請號: | 201410216252.8 | 申請日: | 2014-05-21 |
| 公開(公告)號: | CN104035972B | 公開(公告)日: | 2017-06-06 |
| 發明(設計)人: | 陳清財;劉勝宇;王曉龍;湯斌 | 申請(專利權)人: | 哈爾濱工業大學深圳研究生院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L12/58 |
| 代理公司: | 深圳市科吉華烽知識產權事務所(普通合伙)44248 | 代理人: | 于標 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 推薦 方法 系統 | ||
技術領域
本發明涉及數據處理領域,尤其涉及一種基于微博的知識推薦方法與系統。
背景技術
微博是一個基于用戶關系的信息分享、傳播以及獲取平臺。如今在中國,微博用戶已超過3億,微博日益成為人們獲取信息的主要方式。由于微博發布、傳播信息的速度很快,微博用戶每天面對海量的微博信息。海量微博信息中會涉及到大量的各行業專業技術名稱、各學科專業術語、組織機構、人物、地名等知識條目。
用戶在閱讀微博時,如遇到超出自身知識范圍的知識條目,通常會利用搜索引擎或者檢索百科知識庫來獲取相關知識信息。現有的通用搜索引擎基于關鍵詞檢索,在海量網頁信息中檢索時,檢索結果大都是包含該關鍵詞的網頁,很難形成一個系統的、全面的、關于該條目的詳細介紹,從而也很難滿足用戶的知識需求。百科知識庫的構建依賴于廣大志愿者來人工完成,通常知識條目更新不及時或者知識描述不夠完整,當用戶檢索的詞條未被收錄時,用戶就獲取不到相關知識描述。
此外,微博上的海量信息讓人們享受信息時代快感的同時,也帶來了另一問題,即讓用戶面對大量無用信息。雖然微博用戶可以根據自己的興趣和偏好選擇關注自己感興趣的博主,在一定程度上過濾掉其不感興趣的大量信息。但是用戶所關注的好友也常會發布一些類似生活化直播的無價值的瑣碎信息,或者用戶不感興趣的信息。這些信息可能會將對用戶有價值或用戶感興趣的專業知識條目淹沒。如何從微博用戶所面臨的海量微博數據中,自動抽取各類知識條目,對知識條目形成擴展解釋,在用戶閱讀微博時向用戶推薦對其有價值或其感興趣的知識條目及相關擴展解釋,提供主動的、個性化的知識服務,如何能免去用戶的知識檢索過程又能避免有價值信息被淹沒是一個極待解決的問題。
發明內容
為了解決現有技術中的問題,本發明提供了一種基于微博的知識推薦方法。
本發明提供了一種基于微博的知識推薦方法,包括如下步驟:
用戶建模:分析用戶本人所發布的微博以及該用戶在微博平臺中的社會關系網絡,得到用戶的知識背景及用戶知識興趣點;
定時批量采集用戶關注好友發布的微博:使用微博爬蟲,針對每個用戶,定時批量采集用戶關注的所有好友在一個采集周期內發布的微博;
知識條目發現:從用戶關注好友發布的微博中識別出各類知識條目;
知識條目擴展:利用百科知識庫獲取與該知識條目對應的百科詞條,利用搜索引擎獲取與該知識條目相關的網頁,并抽取對該條目的擴展解釋;
知識推薦:根據用戶的知識背景及知識興趣點向用戶推薦其感興趣的知識條目及相關擴展解釋。
作為本發明的進一步改進,在所述用戶建模步驟中,包括如下步驟:
用戶知識背景建模:通過分析用戶本人所發布的歷史微博數據,及其好友所發布的歷史微博數據,對用戶的知識背景建模;
用戶知識興趣建模:通過分析用戶在微博平臺中的社會關系網絡,分析用戶的知識興趣點所在;
在所述知識條目發現步驟中,包括如下步驟:
微博數據預處理:去除當前采集周期內所采集到的微博內容數據中的噪聲;
獲取知識條目發現模型的訓練語料:根據預先確定的待發現知識條目類別人工標注訓練語料,或者根據特定類別的種子知識條目從海量微博數據中自動獲取訓練語料;
發現知識條目:將訓練得到的知識條目發現模型應用到當前采集周期所采集到的微博數據,發現知識條目。
作為本發明的進一步改進,在用戶知識背景建模步驟中,包括如下步驟:
獲取用戶本人發布的歷史微博數據:利用微博爬蟲爬取用戶歷史上所發布的微博;
獲取用戶關注好友所發布的歷史微博數據:利用微博爬蟲爬取用戶所關注的好友歷史上所發布的微博數據;
獲取用戶知識背景:分析用戶本人所發布的歷史微博數據及用戶關注好友發布的歷史微博數據,得到用戶對各類知識條目的了解程度;
在用戶知識興趣建模步驟中,包括如下步驟:
獲取微博平臺中用戶社會關系網絡:獲取用戶所關注的好友以及用戶好友間的關注關系;
獲取用戶知識興趣:分析用戶關注好友的知識背景,通過用戶關注好友的知識背景發現用戶的知識興趣點所在。
作為本發明的進一步改進,在所述知識條目擴展步驟中,包括如下步驟:
獲取知識條目相應的候選詞條:從百科知識庫中獲取可能與知識條目相對應的所有候選詞條;
知識條目消歧義:在所有可能與知識條目相對應的候選詞條中,找到真正與該知識條目相對應的詞條,或者判斷出候選詞條中沒有與其相對應的詞條;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學深圳研究生院,未經哈爾濱工業大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410216252.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種面向結構化醫藥信息的檢索方法和系統
- 下一篇:社交網絡群體識別方法和系統





