[發明專利]基于自動分類技術的特定信息搜索方法無效

申請號：	200810036369.2	申請日：	2008-04-21
公開（公告）號：	CN101261629A	公開（公告）日：	2008-09-10
發明（設計）人：	孟浩華;曾雪強;李國正	申請（專利權）人：	上海大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	上海上大專利事務所	代理人：	何文欣
地址：	200444***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于自動分類技術特定信息搜索方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于自動分類技術的特定信息搜索方法，其特征在于首先通過網絡蜘蛛收集一些典型的網頁構成訓練文檔集合，再對訓練集合中的網頁進行人工標注領域相關網頁或領域非相關網頁，然后利用機器學習算法在訓練集合上進行建模并得到網頁自動分類器；接著，再通過網絡蜘蛛大量收集該特定領域相關網頁，利用前面建立的自動分類器判別網頁是否該領域相關網頁，并建立基于倒排表的全文索引庫將這些相關網頁保存下來；最后，提供一個檢索接口，方便用戶從全文索引庫中查詢出該領域相關網頁；具體操作包含以下三個模塊：分類器訓練模塊、網頁采集及索引模塊和信息檢索模塊。

2.根據權利要求1所述的基于自動分類技術的特定信息搜索方法，其特征在于所述的分類器訓練模塊的功能是得到一個能夠自動判別網頁是否是“領域相關”的自動分類模塊，具體步驟如下：

a)通過網絡蜘蛛采集一定數量有代表性的訓練網頁；

b)對網頁進行人工標注；請該領域的相關人員，將網頁分為“領域相關網頁”和“領域非相關網頁”兩類；

c)對網頁進行預處理，建立基于向量空間模型的訓練文檔矩陣；具體的處理操作包括：去除HTML標記、去除網頁中的非相關信息、中文分詞、去除停用詞和建立文檔向量；

d)分類器訓練；采用分類準確度較高的SVM分類模型進行分類器訓練；

e)分類模型保存；保存分類器參數以及建立文檔向量時所需的相關信息。

3.根據權利要求1所述的基于自動化分類技術的特定信息搜索方法，其特征在于所述的網頁采集及索引模塊的功能是得到一個領域相關網頁的基于倒排表的全文索引庫，為用戶的信息檢索提供數據來源；具體步驟如下：

a)通過網絡蜘蛛采集海量網頁；為網絡蜘蛛設定一些特定的網頁作為起始搜索頁面，網絡蜘蛛讀取這些起始頁面的內容并抽取出其中的超鏈接地址，然后通過這些鏈接地址尋找下一個頁面，這樣一直循環下去，直到觸發某種終止條件而停止網頁采集；

b)對采集的網頁進行預處理，建立向量空間模型下的文檔向量；具體的操作包括，去除HTML標記、去除網頁中的非相關信息、中文分詞、去除停用詞和建立文檔向量；

c)對采集的網頁進行判別；利用“分類器訓練模塊”建立的SVM分類模型，對文檔向量進行判別，丟棄判別為“領域非相關”的網頁，只保留其中判別為“領域相關”的網頁；

d)建立全文索引庫；構建基于倒排表技術的全文索引庫，保存“領域相關”的網頁；為了適應海量信息保存的需要，采用開源的全文索引引擎工具Lucene建立索引數據庫。

4.根據權利要求1所述的基于自動分類技術的特定信息搜索方法，其特征在于所述的信息檢索模塊的功能是為用戶提供一個進行特定領域信息檢索的接口，從全文索引庫中查詢出該領域相關的網頁呈現給用戶；具體步驟如下：