[發明專利]頁面的搜索特性的分析方法和分析裝置有效
| 申請號: | 201710308061.8 | 申請日: | 2017-05-04 |
| 公開(公告)號: | CN107133321B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 尹文科;徐健;劉高強;閆彬 | 申請(專利權)人: | 廣東神馬搜索科技有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F40/289;G06F40/30 |
| 代理公司: | 北京展翼知識產權代理事務所(特殊普通合伙) 11452 | 代理人: | 屠長存 |
| 地址: | 510627 廣東省廣州市天河區黃埔大*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面 搜索 特性 分析 方法 裝置 | ||
1.一種頁面的搜索特性的分析方法,包括:
基于查詢集中的歷史查詢請求的多個第一分詞和頁面集中的頁面的多個第二分詞,計算查詢集中的歷史查詢請求和頁面集中的頁面之間的第一相似度;
將第一相似度超過第一預定閾值的歷史查詢請求和頁面視為相互匹配;
根據所述頁面的匹配信息,對所述頁面進行分析,以確定所述頁面的搜索特性。
2.根據權利要求1所述的分析方法,其中,根據頁面的匹配信息對所述頁面進行分析以確定所述頁面的搜索特性包括:
根據匹配所述頁面的歷史查詢請求的數量,確定所述頁面的查詢熱門度;以及/或者
根據匹配所述頁面的歷史查詢請求所匹配的頁面的數量,確定所述頁面的資源稀缺度。
3.根據權利要求1所述的方法,其中,計算查詢集中的歷史查詢請求和頁面集中的頁面之間的第一相似度包括:
對所述查詢集中的歷史查詢請求進行分詞并計算權重,以得到多個第一分詞及每個第一分詞所對應的權重;
對所述頁面集中的頁面所對應的文字信息進行分詞并計算權重,以得到多個第二分詞及每個第二分詞所對應的權重;
通過計算歷史查詢請求所對應的第一分詞和頁面所對應的第二分詞之間的相似度,確定所述歷史查詢請求和所述頁面之間的第一相似度。
4.根據權利要求3所述的分析方法,其中,
僅計算具有至少一個相同的有效分詞的歷史查詢請求和頁面之間的第一相似度。
5.根據權利要求3所述的方法,其中,相同的分詞具有相同的權重,根據下列相似度計算公式計算歷史查詢請求和頁面之間的第一相似度S(q,u):
其中,q表示歷史查詢請求,u表示頁面,kj表示屬于歷史查詢請求所對應的第一分詞和頁面所對應的第二分詞的交集的分詞,ki表示屬于歷史查詢請求所對應的第一分詞和頁面所對應的第二分詞的并集的分詞,表示分詞kj的權重,表示分詞ki的權重。
6.根據權利要求5所述的方法,其中,計算第一相似度S(q,u)的過程包括:
計算歷史查詢請求和頁面之間的部分相似度Sj'(q,u),其中,
通過累加對應于同一組歷史查詢請求和頁面的部分相似度Sj'(q,u),得到該歷史查詢請求和該頁面之間的第一相似度。
7.根據權利要求6所述的方法,其中,計算部分相似度Sj'(q,u)包括:
生成多條第一記錄數據,每條所述第一記錄數據包括第一分詞、第一分詞對應的權重、第一分詞對應的歷史查詢請求以及該歷史查詢請求對應的全部第一分詞及其權重,所述多條第一記錄數據是按照第一分詞的哈希值排列的;
生成多條第二記錄數據,每條所述第二記錄數據包括第二分詞、第二分詞對應的權重、第二分詞對應的頁面、頁面的權重以及該頁面對應的全部第二分詞及其權重,所述多條第二記錄數據是按照第二分詞的哈希值排列的;
分別從所述多條第一記錄數據和所述多條第二記錄數據中選擇哈希值相同的第一記錄數據和第二記錄數據作為計算用數據,計算部分相似度Sj'(q,u)。
8.根據權利要求7所述的方法,其中,
對于哈希值相同的第一記錄數據,按照第一記錄數據所針對的歷史查詢請求的字符順序進行排序,并且/或者,
對于哈希值相同的第二記錄數據,按照第二記錄數據所針對的頁面的權重的大小進行排序。
9.根據權利要求8所述的方法,還包括:
對于哈希值相同的多條第一記錄數據,保留第一數量閾值的第一記錄數據參與部分相似度的計算;以及/或者
對于哈希值相同的多條第二記錄數據,保留第二數量閾值的第二記錄數據參與部分相似度的計算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東神馬搜索科技有限公司,未經廣東神馬搜索科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710308061.8/1.html,轉載請聲明來源鉆瓜專利網。





