[發明專利]網頁信息查詢方法及其系統有效
| 申請號: | 200910236057.0 | 申請日: | 2009-10-19 |
| 公開(公告)號: | CN101673306A | 公開(公告)日: | 2010-03-17 |
| 發明(設計)人: | 衛冰潔;李亞楠;王斌;張森 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 | 代理人: | 祁建國;梁 揮 |
| 地址: | 100080北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 信息 查詢 方法 及其 系統 | ||
1.一種網頁信息查詢方法,其特征在于,包括:
步驟1,預設查詢分類的類別和分類依據的參考量,根據所述類別和所述參考量建立分類器;其中:所述步驟1包括:
步驟21,預設所述類別和所述參考量;
步驟22,對于每個類別,預設所述類別對應的訓練查詢詞,搜索引擎依據所述訓練查詢詞進行查詢,獲得的查詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;
步驟23,根據所述參考量從所述訓練網頁文檔集合中抽取用于分類的特征;
步驟24,根據所述特征建立分類器;
步驟2,輸入查詢詞,搜索引擎依據輸入的查詢詞進行查詢,獲得查詢結果網頁;
步驟3,所述分類器對查詢結果網頁進行分類,并按分類顯示查詢結果網頁。
2.如權利要求1所述的網頁信息查詢方法,其特征在于,
所述步驟21進一步為,預設的所述類別包括:導航型搜索、信息型搜索和事務型搜索,預設的所述參考量為網頁標題;
所述步驟23進一步為,對于每個類別的訓練網頁集合,將所述訓練網頁集合中的訓練網頁文檔的網頁標題進行分詞處理,將所述網頁標題分為詞的集合,按每個詞在所述類別中出現的次數從詞的集合中為所述類別選擇特征詞作為用于分類的特征;
所述步驟24進一步為,對于每個類別建立所述分類器,所述分類器用于判斷輸入的查詢結果網頁的網頁標題中是否包括特征詞,如果包括則查詢結果網頁屬于所述特征詞對應類別。
3.如權利要求2所述的網頁信息查詢方法,其特征在于,
對于每個類別,所述類別的特征組成特征集合;
所述步驟23后還包括將特征集合同預設的非特征集合匹配,將所述特征集合中被匹配的特征刪除。
4.如權利要求1所述的網頁信息查詢方法,其特征在于,
所述步驟21進一步為預設的所述類別包括:信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文;
所述步驟23進一步為根據訓練網頁文檔抽取用于提取正文的特征;所述步驟23進一步為,
步驟61,確定所述訓練網頁文檔中的正文;
步驟62,輸入正文的候選屬性,對于每個候選屬性,在所述訓練網頁文檔的正文和非正文中分別統計所述候選屬性的數值;
步驟63,根據統計結果從候選屬性中選擇作為特征的屬性,并確定各個屬性對應的正文和非正文的分界值;
所述步驟24進一步為建立所述分類器,所述分類器用于根據所述特征從輸入分類器的查詢結果網頁中提取正文,計算所述正文在所述查詢結果網頁中的占有率,根據所述占有率確定所述查詢結果網頁所屬類別。
5.如權利要求4所述的網頁信息查詢方法,其特征在于,
所述步驟24進一步為,
步驟64,建立所述分類器,所述分類器用于對輸入的查詢結果網頁的每行,根據所述行對應于特征的屬性和所述屬性對應的分界值,判斷所述行是否為正文,計算所述正文在所述查詢結果網頁中的占有率,根據所述占有率確定所述查詢結果網頁所屬類別。
6.如權利要求5所述的網頁信息查詢方法,其特征在于,
所述分類器在計算占有率時進一步用于將正文中連續的行整合為段,段中的首字節的權重為預設初始權重值,對段中首字節后的字節依次增加權重值,非正文中字節的權重為預設非正文權重值,計算正文權重值加和同查詢結果網頁權重值加和比值作為所述占有率;
所述分類器在確定類別時進一步用于如果所述占有率超過閥值,則所述查詢結果網頁為信息型搜索,否則,為非信息型搜索。
7.如權利要求1所述的網頁信息查詢方法,其特征在于,
所述步驟21還包括預設的所述類別包括:信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文;
所述步驟23還包括為根據訓練網頁文檔抽取用于提取正文的特征;
所述步驟24還包括建立第二分類器,所述分類器用于根據所述特征從輸入的查詢結果網頁中提取正文,計算所述正文在所述查詢結果網頁中的占有率,根據所述占有率確定所述查詢結果網頁所屬類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910236057.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:包括轉動端部轉向架的鐵路車輛
- 下一篇:治療生物膜形成的三唑化合物
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





