[發明專利]基于相關性分數分布對查詢意圖進行分類的方法無效
| 申請號: | 201110415617.6 | 申請日: | 2011-12-13 |
| 公開(公告)號: | CN102411626A | 公開(公告)日: | 2012-04-11 |
| 發明(設計)人: | 閆宏飛;劉曉兵;徐谷子;何靖;李鑠 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 相關性 分數 分布 查詢 意圖 進行 分類 方法 | ||
1.一種基于相關性分數分布對查詢意圖進行分類的方法,其特征在于,包括以下步驟:
S1、獲取查詢的檢索結果和網頁;
S2、根據所述檢索結果和網頁構建檢索結果集;
S3、度量所述檢索結果集中文檔的相關性分數;
S4、利用相關性分數的分布對查詢意圖進行分類。
2.如權利要求1所述的方法,其特征在于,步驟S2具體包括抓取檢索結果,并獲取搜索引擎返回的前n個結果,n為正整數。
3.如權利要求1所述的方法,其特征在于,當步驟S3使用改進的圖算法進行度量,則步驟S2在構建檢索結果集的同時還解析所述網頁所鏈接的錨文本、所述網頁的標題和檢索結果的摘要信息,所述改進的圖算法包括改進的Hits算法和改進的PageRank算法。
4.如權利要求3所述的方法,其特征在于,當步驟S3使用改進的Hits算法進行度量,則步驟S2在構建檢索結果集的同時獲取所述前n個結果入鏈和出鏈的網頁。
5.如權利要求3所述的方法,其特征在于,步驟S2中,構建檢索結果集,同時解析所述網頁所鏈接的錨文本、所述網頁的標題和檢索結果的摘要信息的步驟包括:
S21、解析檢索結果頁面RP,獲取每一個檢索結果的摘要、標題和URL,形成檢索結果集R;
S22、將R中的網頁添加到網頁集合U中;
S23、對于R中的每一個網頁p:
S231、抓取p指向的所有網頁,形成集合O={p的出鏈集合},將O添加到U中;
S232、抓取指向p的所有的網頁,形成I={p的入鏈集合},從I中隨機選取m個元素添加到U中;
S24、對于網頁集合U中的每一個網頁p,解析p,獲取p指向的鏈接的地址和錨文本,獲取p的標題,并輸出每一個檢索結果的摘要信息。
6.如權利要求3所述的方法,其特征在于,所述改進的Hits算法或改進的PageRank算法中,根據查詢詞與錨文本之間的相似度對鏈接關系圖中的每一條邊設定不同的權重。
7.如權利要求1所述的方法,其特征在于,當步驟S3使用改進的檢索模型進行度量,則該步驟S3具體為:使用tf-idf打分模型,選取文檔的標題和搜索引擎生成的摘要對文檔進行打分。
8.如權利要求1~7中任一項所述的方法,其特征在于,步驟S4具體為:對于相關性分數的分布,采用分布的中位數、均值、信息熵中的若干個作為分類的特征,然后對于每一個相關性分數的分布,選擇若干個特征形成分類的特征向量,再采用分類方法對查詢詞進行分類,從而預測出查詢詞的類別,最后根據所述查詢詞的類別判斷查詢意圖的類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110415617.6/1.html,轉載請聲明來源鉆瓜專利網。





