[發明專利]基于聚類信息的高相關微博檢索方法有效
| 申請號: | 201810057738.X | 申請日: | 2018-01-22 |
| 公開(公告)號: | CN108334573B | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 楊震;王凱 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/9032;G06F16/35 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 信息 相關 檢索 方法 | ||
基于聚類信息的高相關微博檢索方法,屬于數據挖掘領域。微博檢索旨在找出相關,有價值且及時的內容。但微博的檢索受到短文本問題的影響,導致模型不可靠。為解決這一問題,本文提出了一種新的方法。人們認為,短文本和查詢之間的語言鴻溝使分類任務不滿意。在此基礎上,提出了一種基于聚類信息的檢索模型。我們進行了一系列的實驗,以評估提出的框架在語料庫中的有效性。實驗結果表明,與基線標準相比,該方法在微博檢索中是有效的。
技術領域
本發明涉及一種基于聚類信息的高相關微博檢索方法,屬于數據挖掘領域。
背景技術
互聯網的廣泛使用快速的增加了信息存儲量和網絡訪問量,而社交媒體(例如Twitter,Weibo,Facebook)的出現更深刻地改變了人們的生產和消費信息的方式,他和主流新聞媒體網站(如CNN或nytimes。com)最大的不同是社交網絡中的人即是信息的消費者也是信息的生產者,這使得社交網絡中的信息不僅來源多樣并且雜亂無章,用詞口語化,增加了用戶獲取信息的難度。家庭用戶用電數據分解是通過非侵入的方式,基于對電源總接口處測得的總用電數據的細節分析,確定單獨的電器的具體工作情況。目前相關研究已取得了一定進展,主要實現方法包括以用電功率變化量為特征在二維特征空間進行聚類、利用數據建立隱馬爾科夫模型進行用電狀態預測、基于非負矩陣分解的稀疏編碼等。但是傳統的這些技術難以適用于組成越來越復雜的用電數據,對用電數據分解結果的誤差較大,準確性難以為用戶所接受。
歷史研究表明微博信息過濾的性能不能達到人們預期效果的主要原因是,用戶輸入的檢索詞不能精確表達用戶的真實查詢意圖。因此,本文提出一個檢索模型框架用于提高推特檢索性能,它基于聚類信息,能對一般檢索結果進行重新排序,使得檢索結果更符合用戶需求。實驗結果表明,與傳統的檢索模型相比,該模型的性能有所提高。
發明內容
1.用BM25檢索模型得到微博的初步檢索結果。BM25算法是一種用來評價檢索詞和文檔之間相關性的算法,它是一種基與概率檢索模型提出的算法。再來具體描述下BM25算法,假設我們有一個query和一批文檔,現在要計算query和每篇文檔之間的相關性分數,我們的做法是,先對query進行切分,得到詞向qi,然后query的相關性分數由兩部分組成:
(1).詞向qi和文檔之間的相關性
(2).每個詞向qi的權重
最后對于各個詞向的相關性分數累加,就得到了query和文檔之間的分數:
其中IDF(qi)表示詞向qi的逆文檔頻率,該指標用于表示每個詞向qi的權重,計算方法如下:
N表示文檔數,n(qi)表示包含qi的文檔,|D|表示文檔中的詞數,f(qi,D)表示詞向qi在文檔D的頻率,k1和b表示經驗常量,在這里k1取2,b取0.75,avgdl表示文檔平均長度,經計算avgdl取14。
因此,根據BM25檢索算法我們可以得到一個初步的微博檢索結果。
2.用NMF實現微博文本聚類,將類簇提取出來輔助檢索結果排序,核心思想是如果兩個文檔的檢索相關度基本相同,那么屬于較重要類簇的文檔就應該具有更高的相關度。最終優化公式如下:
s.t.U≥0,H≥0
其中,||*||F代表2范數。W代表詞文檔矩陣,V矩陣聚類結果矩陣。U矩陣代表每個文檔屬于每個類簇的程度。α和β代表矩陣權值,最小化目標函數F代表W矩陣正確分解為U矩陣和V矩陣。
對目標函數分別對U,V兩個矩陣求導:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810057738.X/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





