[發明專利]網頁信息查詢方法及其系統有效
| 申請號: | 200910236057.0 | 申請日: | 2009-10-19 |
| 公開(公告)號: | CN101673306A | 公開(公告)日: | 2010-03-17 |
| 發明(設計)人: | 衛冰潔;李亞楠;王斌;張森 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 | 代理人: | 祁建國;梁 揮 |
| 地址: | 100080北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 信息 查詢 方法 及其 系統 | ||
技術領域
本發明涉及計算機的信息檢測領域,尤其涉及網頁信息查詢方法及其系統。
背景技術
隨著網絡信息大量增長,造成了用戶查找信息的困難。搜索引擎在人們的生活中起著越來越多的作用,搜索引擎通過計算網頁和查詢詞之間相關性向用戶返回與其查詢相關的網頁。但是由于信息的過于豐富,即使去除掉不相關的信息,對于用戶而言,同樣是龐大的數據資料。另一方面,用戶輸入查詢往往較短,背后可能隱含多種不同意圖。例如,用戶的目的是得到中科院首頁的鏈接,或解中科院的相關新聞或信息,二者均可通過輸入查詢詞“中科院”得到。
現有技術中的搜索引擎僅按照各網頁與查詢的相似度大小把眾多相關網頁放在一個單一的列表中,這種單一的排序方式無法體現一個查詢所對應的各種不同意圖,對于用戶的每次有針對性的搜索并不能提供更多幫助。用戶的有針對性的搜索為用戶查詢的目的,稱為用戶意圖。現實搜索引擎日志的統計結果顯示,用戶查詢通常由兩三個詞組成,查詢平均長度不超過三個詞。因此,同一查詢背后可能隱含著多種意圖,不同用戶搜索目的不同,甚至同一個用戶在不同時間輸入同一個搜索詞而查詢的目的也不相同。
因此,現有技術的檢索方法具有兩個問題:第一,返回結果沒有針對性,體現各種用戶意圖的結果混雜在一起,對用戶查找自己所需信息造成困難;第二,當一個查詢隱含多種用戶意圖時,現有技術的排序算法使某些非主流意圖對應的結果顯示過于滯后,導致某些用戶找不到需要的查詢結果,并影響具有其他用戶意圖的用戶全面了解信息。
本發明涉及相關的現有技術中概念包括:特征選擇、特征提取、文本分類。
特征選擇,在n個特征中選擇m個特征?,F有技術中的算法多是通過計算特征之間影響度進行特征的取舍,而且也可根據影響度對特征賦予相對應的權重。
特征提取,是將n個特征進行變換形成m個特征。特征詞為特征中的一種形式,例如存在一個詞庫,詞庫中共有n個詞,該n個詞為最初的n個特征詞。存在一個文本庫,共有k篇文本,每個文本用一個n維向量表示,向量中的每一位代表詞庫中對應的詞是否在文本中出現,由此獲得一個n×k維的矩陣,然后通過數學方法奇異值分解方法(Singular?ValueDecomposition,簡稱SVD)分解變換矩陣最終得到m×k的矩陣,因而獲得的m個特征詞。詞頻也是一種特征,是指現有文檔集合個數為N,一個詞出現的文檔個數為M,則M/N便是詞頻。
文本分類,將現有文本分到已確定的類別中?,F有技術中實現文本分類的算法包括:投票機制、決策樹、支持向量機、神經網絡等。
投票機制是指現有多個分類器,每個分類器判斷出來一個結果,最終選擇結果最多的那個類別。決策樹是指將文本的特征按照影響程度進行排序,并將每次的特征作為判定條件(子樹的根節點)進行擴展,最后生成一顆樹,或者可用判決條件表示,例如“如果小明<12歲,則小明屬于少年”。
作為特征的文本屬性包括:文本的長度、文本中詞出現的頻度、文本中詞的個數,以及由此計算出來的詞出現概率、互信息等。
發明內容
為解決上述問題,本發明提供了網頁信息查詢方法及其系統,能夠對查詢結果網頁進行分類。
本發明公開了一種網頁信息查詢方法,包括:
步驟1,預設查詢分類的類別和分類依據的參考量,根據所述類別和所述參考量建立分類器;
步驟2,輸入查詢詞,搜索引擎依據輸入的查詢詞進行查詢,獲得查詢結果網頁;
步驟3,所述分類器對查詢結果網頁進行分類,并按分類顯示查詢結果網頁。
所述步驟1進一步為:
步驟21,預設所述類別和所述參考量;
步驟22,根據所述類別建立訓練網頁集合;
步驟23,根據所述參考量從所述訓練網頁文檔集合中抽取用于分類的特征;
步驟24,根據所述特征建立所述分類器。
所述步驟21進一步為,預設的所述類別包括:導航型搜索、信息型搜索和事務型搜索,預設的所述參考量為網頁標題;
所述步驟22進一步為,對于每個類別,預設所述類別對應的訓練查詢詞,搜索引擎依據所述訓練查詢詞進行查詢,獲得的查詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;
所述步驟23進一步為,對于每個類別的訓練網頁集合,將所述訓練網頁集合中的訓練網頁文檔的網頁標題進行分詞處理,將所述網頁標題分為詞的集合,按每個詞在所述類別中出現的次數從詞的集合中為所述類別選擇特征詞作為用于分類的特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910236057.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:包括轉動端部轉向架的鐵路車輛
- 下一篇:治療生物膜形成的三唑化合物
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





