[發明專利]一種主頁鏈接推薦方法在審
| 申請號: | 201710565551.6 | 申請日: | 2017-07-12 |
| 公開(公告)號: | CN107357891A | 公開(公告)日: | 2017-11-17 |
| 發明(設計)人: | 陳剛;何積豐;張新陽 | 申請(專利權)人: | 中云開源數據技術(上海)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海科盛知識產權代理有限公司31225 | 代理人: | 宣慧蘭 |
| 地址: | 201306 上海市浦東新區南*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 主頁 鏈接 推薦 方法 | ||
技術領域
本發明涉及一種網絡搜索方法,尤其是涉及一種主頁鏈接推薦方法。
背景技術
在現代社會中,網絡搜索已經成為人們不可缺少的信息來源工具。人們使用搜索引擎時,首先輸入一個或一組關鍵詞,搜索引擎給出搜索結果列表,人們再根據自己的需求盲從檢索結果列表中找出自己需要的鏈接。通常,這些搜索引擎都有各自的技術支持用戶根據關鍵詞檢索,且各家搜索引擎的技術和排序方法也有不同,這樣,用戶使用不同的搜索引擎,得到的結果會有一些差別。但這些搜索引擎的不足之處在于:它們并不了解用戶真正想檢索或者感興趣的領域或者內容是什么,用戶腦中所想的關鍵詞,搜索引擎的理解可能大相徑庭。當然,根據檢索關鍵詞搜索得到的結果列表里應該已經包含了用戶關心的結果鏈接,只是由于各家引擎檢索算法不同,其結果排序對用戶來講并非最優,也可能用戶打算尋找的關鍵詞對應的鏈接在搜索結果列表里的位置很靠后,用戶無法立刻找到。為此,各家搜索引擎開發自己的算法,從多方面收集信息,“猜測”用戶輸入的關鍵詞的真正內涵,并給出最可能滿足用戶要求的搜索結果。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種主頁鏈接推薦方法。
本發明的目的可以通過以下技術方案來實現:
一種主頁鏈接推薦方法,該方法包括如下步驟:
(1)根據輸入的關鍵詞獲取與關鍵詞相關的搜索結果;
(2)過濾搜索結果提取所有與關鍵詞相關的主頁鏈接列表;
(3)獲取步驟(2)中主頁鏈接鏈表中所有主頁對應的HTML源代碼;
(4)對于每個主頁從相應的HTML源代碼中提取多組特征信息;
(5)對于每個主頁根據特征信息求取該主頁與關鍵詞的相似度;
(6)根據相似度對所有主頁進行排序并將相似度最高的主頁鏈接推薦給用戶。
步驟(2)具體為:從搜索結果中提取含有頂級域名以及帶有國家域名的鏈接作為過濾結果并形成主頁鏈接列表。
步驟(3)中多組特征信息包括:標題標簽的內容、公安網絡備案內容、元數據標簽中關鍵詞子標簽的內容以及元數據標簽中描述子標簽的內容。
步驟(5)具體為,確定第i組特征信息的權重值wi,i=1,2,……n,n表示特征信息的總組數,然后采用下述步驟確定每個主頁與關鍵詞的相似度:
(a)確定第i組特征信息與關鍵詞的相關度Xi,i=1,2,……n;
(c)待求取相似度的主頁與關鍵詞的相似度為F:
在確定每個主頁與關鍵詞的相似度之前還需判斷關鍵詞是否能進行詞組拆分,若能,將關鍵詞拆分為多個關鍵分詞并作為比對關鍵詞,否則將關鍵詞直接作為比對關鍵詞,進而步驟(b)為:將第i組特征信息拆分成多個特征分詞,獲取比對關鍵詞在第i組特征信息的特征分詞中出現的頻數作為所述的相關度Xi。
與現有技術相比,本發明具有如下優點:
(1)本發明提供了針對主頁鏈接的推薦方法,針對性較強,通過從HTML源代碼中提取多組特征信息進而獲取主頁與關鍵詞的相似度,推薦結果更加符合用戶需求;
(2)本發明獲取主頁與關鍵詞的相似度時通過簡單的比對獲取頻數來確定每組特征信息的相關度,同時考慮各組特征信息的重要程度確定相應權重,最后通過加權求和法獲取相應的相似度,該方法簡單方便,但同時始終以用戶輸入的關鍵詞為搜索目標,使得搜索結果更加貼近用戶所需,極大程度滿足用戶要求。
附圖說明
圖1為發明主頁鏈接推薦方法的流程框圖。
具體實施方式
下面結合附圖和具體實施例對本發明進行詳細說明。
實施例1
如圖1所示,一種主頁鏈接推薦方法,該方法包括如下步驟:
(1)根據輸入的關鍵詞獲取與關鍵詞相關的搜索結果;
(2)過濾搜索結果提取所有與關鍵詞相關的主頁鏈接列表;
(3)獲取步驟(2)中主頁鏈接鏈表中所有主頁對應的HTML源代碼;
(4)對于每個主頁從相應的HTML源代碼中提取多組特征信息;
(5)對于每個主頁根據特征信息求取該主頁與關鍵詞的相似度;
(6)根據相似度對所有主頁進行排序并將相似度最高的主頁鏈接推薦給用戶,或者可以將所有主頁連接按照相似度排序由高到低全部推薦給用戶共用戶自行選擇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中云開源數據技術(上海)有限公司,未經中云開源數據技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710565551.6/2.html,轉載請聲明來源鉆瓜專利網。





