[發明專利]基于聚類信息的高相關微博檢索方法有效
| 申請號: | 201810057738.X | 申請日: | 2018-01-22 |
| 公開(公告)號: | CN108334573B | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 楊震;王凱 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/9032;G06F16/35 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 信息 相關 檢索 方法 | ||
1.基于聚類信息的高相關微博檢索方法,其特征在于,包括以下步驟:
1).用BM25檢索模型得到微博的初步檢索結果;
2).用NMF實現微博文本聚類,將類簇提取出來輔助檢索結果排序:如果兩個文檔的檢索相關度相同,那么屬于較重要類簇的文檔就具有更高的相關度;最終優化公式如下:
s.t.U≥0,H≥0
其中,||*||F代表2范數;W代表詞文檔矩陣,V矩陣聚類結果矩陣;U矩陣代表每個文檔屬于每個類簇的程度;α和β代表矩陣權值,最小化目標函數F代表W矩陣正確分解為U矩陣和V矩陣;
對目標函數分別對U,V兩個矩陣求導:
針對此優化目標應用KKT條件,在保證矩陣非負的情況下,得到等式結果如下:
-2WV+UVTV+2αU=0
-2WTU+VTU+2βV=0
根據恒等式,得出U和V矩陣的迭代公式如下:
其中U(i,k)代表迭代過程中的U矩陣,V(i,k)代表迭代過程中的V矩陣;
在兩個迭代公式下,當F收斂時求得U矩陣和V矩陣;U矩陣每行表示對應行微博的聚類結果,屬于行最大元素的所對應的類簇;
3).根據聚類結果類簇,把類簇文本集作為一個文本來處理,計算類簇的BM25值,再根據類簇BM25值對步驟1).得到的結果進行修正:
rescore(D,Q)=score(D,Q)·score(Clui,Q)
其中,score(D,Q)表示微博的BM25值,score(Clui,Q)表示該微博所對應類簇的BM25值,修正后的rescore(D,Q)代表最后的排序分數。
2.根據權利要求1所述方法,其特征在于,用BM25檢索模型得到微博的初步檢索結果具體為:
假設有一個query和一批文檔,現在要計算query和每篇文檔之間的相關性分數,先對query進行切分,得到詞向qi,然后query的相關性分數由兩部分組成:
(1).詞向qi和文檔之間的相關性
(2).每個詞向qi的權重
最后對于各個詞向的相關性分數累加,就得到了query和文檔之間的分數:
其中IDF(qi)表示詞向qi的逆文檔頻率,該指標用于表示每個詞向qi的權重,計算方法如下:
N表示文檔數,n(qi)表示包含qi的文檔,|D|表示文檔中的詞數,f(qi,D)表示詞向qi在文檔D的頻率,k1和b表示經驗常量,在這里k1取2,b取0.75,avgdl表示文檔平均長度,經計算avgdl取14。
3.根據權利要求1所述方法,其特征在于,檢索系統框架如下:
(1).過濾掉非英文微博,并去除長度小于兩個單詞的微博,作為檢索文檔集D;將原始用戶興趣文件的title字段去除特殊符號,首字母小寫后作為原始查詢Q;
(2).將原始查詢Q最為查詢詞,用鏡像網站作為外部數據源,搜索查詢詞Q,將得到的前50結果提取關鍵詞,作為查詢Q的擴展查詢;以此計算每個查詢詞與每篇微博的相關度;
(3).將全部微博作為數據集做NMF聚類,提取類簇,計算類簇的BM25值;
(4).根據算法框架中的步驟3)公式計算結果,得到最后的檢索排序,計算性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810057738.X/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





