[發(fā)明專利]一種考慮多因素的全文搜索引擎網(wǎng)頁排序算法在審
| 申請?zhí)枺?/td> | 202210091438.X | 申請日: | 2022-01-26 |
| 公開(公告)號: | CN114443987A | 公開(公告)日: | 2022-05-06 |
| 發(fā)明(設計)人: | 吳培煌;趙加坤 | 申請(專利權(quán))人: | 吳培煌 |
| 主分類號: | G06F16/9538 | 分類號: | G06F16/9538;G06F16/9535;G06F40/216;G06F17/18 |
| 代理公司: | 安徽初升專利代理事務所(普通合伙) 34233 | 代理人: | 張桂平 |
| 地址: | 515700 廣東省潮*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 考慮 因素 全文 搜索引擎 網(wǎng)頁 排序 算法 | ||
1.一種考慮多因素的全文搜索引擎網(wǎng)頁排序算法,其特征在于,包括改進后WeightedPageRank算法和改進后TF-IDF算法;
所述改進后Weighted PageRank算法的網(wǎng)頁流行度計算公式如公式(1)所示:
其中,表示link(v,u)的inlink權(quán)重,R(v)表示網(wǎng)頁v指向的網(wǎng)頁集合,表示link(v,u)的outlink權(quán)重,d表示阻尼系數(shù),d>0且d<1;B(u)表示指向網(wǎng)頁u的網(wǎng)頁集合;
根據(jù)TF-IDF算法的定義,若某網(wǎng)頁不包含搜索語句的關(guān)鍵詞,則該網(wǎng)頁的TF-IDF值為0,因此,由公式(1)可知,改進后的Weighted PageRank算法計算網(wǎng)頁的流行度所需考慮的網(wǎng)頁集合僅僅是包含用戶搜索語句關(guān)鍵詞的網(wǎng)頁;
所述改進后TF-IDF算法的計算方法如公式(2)所示:
在公式(2)中,p表示關(guān)鍵詞所在的標簽;nijp表示網(wǎng)頁j的p標簽內(nèi)包含關(guān)鍵詞i的個數(shù),∑knkjp表示網(wǎng)頁j的p標簽內(nèi)所有詞的個數(shù)之和;|D|表示網(wǎng)頁數(shù)量,|{j:ti∈djp}|表示網(wǎng)頁中的標簽p包含第i個詞的網(wǎng)頁數(shù)量;weightp表示標簽p所對應的權(quán)重值,在實際應用中,需要經(jīng)過實驗得出各個標簽的權(quán)重值,很顯然,對網(wǎng)頁主題起到關(guān)鍵作用的標簽賦予的權(quán)重更大,如title標簽的權(quán)重比其它標簽大;
用戶通常具有聚集性特征,也就是說用戶通常會更傾向于去瀏覽近期較為熱門的網(wǎng)頁,所以近期熱門的網(wǎng)頁得分值應該調(diào)整,假設hij表示網(wǎng)頁j在最近i天的熱度值,hij的計算方法如公式(3)所示;
其中,α是一個大于1的常數(shù);uvij表示網(wǎng)頁j在最近i天被訪問的人數(shù);
hij=logα(uvij+α) (3)
通過離線計算的方式給每個網(wǎng)頁計算最近1天、最近7天、最近30天和歷史全部的熱度值,當用戶輸入搜索語句進行搜索時,待排序網(wǎng)頁根據(jù)得分值進行排序,得分值的計算方法如公式(4)所示,其中,h1j、h7j、h30j、h0j分別表示最近1天、最近7天、最近30天和歷史全部的網(wǎng)頁j的熱度值;
scorej=TPRj·h1j·h7j·h30j·h0j (4)
用戶通常對某些網(wǎng)站的網(wǎng)頁更為感興趣,如有的用戶可能更愿意瀏覽知乎的網(wǎng)頁,有的用戶可能更愿意瀏覽百度貼吧的網(wǎng)頁,所以來源于用戶比較感興趣的網(wǎng)站的網(wǎng)頁得分值應該調(diào)整,假設sij表示用戶i對網(wǎng)頁j的網(wǎng)站的傾向度,sij的計算方法如公式(5)所示,其中,vvij表示用戶i訪問了網(wǎng)頁j的網(wǎng)站的次數(shù);vvi表示用戶i的歷史訪問網(wǎng)頁次數(shù);n表示網(wǎng)站個數(shù);
根據(jù)公式(5),用戶訪問某個網(wǎng)站的次數(shù)越多,用戶對該網(wǎng)站的網(wǎng)頁的傾向度就越高;
通過離線計算的方式計算用戶對每個網(wǎng)站的傾向度,利用網(wǎng)站傾向度這一指標,當用戶輸入搜索語句進行搜索時,待排序網(wǎng)頁根據(jù)得分值進行排序,得分值的計算方法如公式(6)所示,其中,score′j表示公式(4)計算出的網(wǎng)頁得分值;
scoreij=score′j·sij (6)
解決關(guān)鍵詞的二義性問題:利用網(wǎng)頁特征向量和用戶特征向量的相似度來衡量用戶對網(wǎng)頁的感興趣程度,以此來再進一步優(yōu)化網(wǎng)頁排序結(jié)果;
搜索引擎中的網(wǎng)頁和用戶可以看成一個巨大的有向圖,網(wǎng)頁與網(wǎng)頁間的有向邊表示為鏈接關(guān)系,比如網(wǎng)頁1引用了網(wǎng)頁2,則網(wǎng)頁1有一條有向邊指向了網(wǎng)頁2,用戶與網(wǎng)頁間的有向邊表示為瀏覽關(guān)系,比如用戶1瀏覽過網(wǎng)頁1,則用戶1有一條有向邊指向了網(wǎng)頁1;
解決對網(wǎng)頁和用戶構(gòu)造特征向量的問題轉(zhuǎn)化為對有向圖中的每個節(jié)點構(gòu)造特征向量的問題;
首先隨機取圖中的一個節(jié)點,然后以該節(jié)點為起始點,利用隨機游走算法(Randomwalk)沿著節(jié)點的邊進行隨機游走,由此得到一個節(jié)點序列,重復上述過程最終得到一個序列集合;然后借助自然語言處理的思路,將生成的節(jié)點序列看作由單詞組成的句子,所有的序列可以看作一個語料庫,然后利用word2vec模型將每一個節(jié)點表示為一個維度為d的向量;
計算用戶節(jié)點的每條邊游走的概率;
如公式(7)所示,計算用戶節(jié)點的每條邊游走的概率,其中,i表示用戶節(jié)點;j表示網(wǎng)頁節(jié)點;tij表示用戶i瀏覽網(wǎng)頁j距離現(xiàn)在的時間,單位為天;γ是大于0的常數(shù);V(i)表示用戶i瀏覽過的網(wǎng)頁集合;
利用改進后的DeepWalk算法,通過離線計算的方式給每個網(wǎng)頁和用戶訓練它們的特征向量,網(wǎng)頁特征向量和用戶特征向量的距離越大,說明用戶對該網(wǎng)頁的興趣度越低,利用余弦距離計算兩個向量間的距離,其計算方法如公式(8)所示;
根據(jù)用戶特征向量和網(wǎng)頁特征向量的余弦距離,計算用戶對該網(wǎng)頁的興趣度,如公式(9)所示;
利用用戶興趣度這一指標,當用戶輸入搜索語句進行搜索時,待排序網(wǎng)頁根據(jù)得分值進行排序,得分值的計算方法如公式(10)所示,scoreij=score′ij·Iij (10)
其中,score′ij表示公式(6)計算出的網(wǎng)頁得分值。
2.根據(jù)權(quán)利要求1所述的一種考慮多因素的全文搜索引擎網(wǎng)頁排序算法,其特征在于,所述DeepWalk是可伸縮的在線學習算法,可以生成有用的增量結(jié)果,并且可以簡單地并行化,能夠適應網(wǎng)絡節(jié)點的動態(tài)增加。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吳培煌,未經(jīng)吳培煌許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210091438.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:聯(lián)接表的方法和裝置
- 下一篇:紙管自動打標機





