[發明專利]基于自動分類技術的特定信息搜索方法無效
| 申請號: | 200810036369.2 | 申請日: | 2008-04-21 |
| 公開(公告)號: | CN101261629A | 公開(公告)日: | 2008-09-10 |
| 發明(設計)人: | 孟浩華;曾雪強;李國正 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海上大專利事務所 | 代理人: | 何文欣 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自動 分類 技術 特定 信息 搜索 方法 | ||
1.一種基于自動分類技術的特定信息搜索方法,其特征在于首先通過網絡蜘蛛收集一些典型的網頁構成訓練文檔集合,再對訓練集合中的網頁進行人工標注領域相關網頁或領域非相關網頁,然后利用機器學習算法在訓練集合上進行建模并得到網頁自動分類器;接著,再通過網絡蜘蛛大量收集該特定領域相關網頁,利用前面建立的自動分類器判別網頁是否該領域相關網頁,并建立基于倒排表的全文索引庫將這些相關網頁保存下來;最后,提供一個檢索接口,方便用戶從全文索引庫中查詢出該領域相關網頁;具體操作包含以下三個模塊:分類器訓練模塊、網頁采集及索引模塊和信息檢索模塊。
2.根據權利要求1所述的基于自動分類技術的特定信息搜索方法,其特征在于所述的分類器訓練模塊的功能是得到一個能夠自動判別網頁是否是“領域相關”的自動分類模塊,具體步驟如下:
a)通過網絡蜘蛛采集一定數量有代表性的訓練網頁;
b)對網頁進行人工標注;請該領域的相關人員,將網頁分為“領域相關網頁”和“領域非相關網頁”兩類;
c)對網頁進行預處理,建立基于向量空間模型的訓練文檔矩陣;具體的處理操作包括:去除HTML標記、去除網頁中的非相關信息、中文分詞、去除停用詞和建立文檔向量;
d)分類器訓練;采用分類準確度較高的SVM分類模型進行分類器訓練;
e)分類模型保存;保存分類器參數以及建立文檔向量時所需的相關信息。
3.根據權利要求1所述的基于自動化分類技術的特定信息搜索方法,其特征在于所述的網頁采集及索引模塊的功能是得到一個領域相關網頁的基于倒排表的全文索引庫,為用戶的信息檢索提供數據來源;具體步驟如下:
a)通過網絡蜘蛛采集海量網頁;為網絡蜘蛛設定一些特定的網頁作為起始搜索頁面,網絡蜘蛛讀取這些起始頁面的內容并抽取出其中的超鏈接地址,然后通過這些鏈接地址尋找下一個頁面,這樣一直循環下去,直到觸發某種終止條件而停止網頁采集;
b)對采集的網頁進行預處理,建立向量空間模型下的文檔向量;具體的操作包括,去除HTML標記、去除網頁中的非相關信息、中文分詞、去除停用詞和建立文檔向量;
c)對采集的網頁進行判別;利用“分類器訓練模塊”建立的SVM分類模型,對文檔向量進行判別,丟棄判別為“領域非相關”的網頁,只保留其中判別為“領域相關”的網頁;
d)建立全文索引庫;構建基于倒排表技術的全文索引庫,保存“領域相關”的網頁;為了適應海量信息保存的需要,采用開源的全文索引引擎工具Lucene建立索引數據庫。
4.根據權利要求1所述的基于自動分類技術的特定信息搜索方法,其特征在于所述的信息檢索模塊的功能是為用戶提供一個進行特定領域信息檢索的接口,從全文索引庫中查詢出該領域相關的網頁呈現給用戶;具體步驟如下:
a)用戶提供查詢條件;用戶在系統提供的WEB查詢接口輸入查詢條件;
b)查詢條件分析處理;包括查詢條件的分隔,“非、與、或”組合條件的分析處理步驟,最終得到一個處理后的查詢條件;
c)全文檢索;根據給定的查詢條件,在全文索引庫中查詢符合條件的網頁;查詢方式包括傳統的關鍵字匹配和基于同義詞擴展的語義查詢;
d)結果呈現;將檢索到的相關網頁按照相關度排序,以列表方式在網頁中呈現給用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810036369.2/1.html,轉載請聲明來源鉆瓜專利網。





