[發明專利]基于關鍵詞解析調度的搜索引擎方法無效

申請號：	200710308466.8	申請日：	2007-12-29
公開（公告）號：	CN101470752A	公開（公告）日：	2009-07-01
發明（設計）人：	李治平	申請（專利權）人：	指點通（北京）科技有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京國林貿知識產權代理有限公司	代理人：	李桂玲;李富華
地址：	100027北京市東城區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于關鍵詞解析調度搜索引擎方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.基于關鍵詞解析調度的搜索引擎方法，該方法包含數據庫建立步驟和用戶網頁搜索步驟，其中用戶網頁搜索步驟為：

A.接收用戶搜索詞，解析關鍵詞提取中文分詞；

B.根據提取的中文分詞在網頁索引中找到文件頁入口；

C.提取該文件頁內容或網頁摘要到移動終端用戶顯示屏幕；

其特征在于，所述數據庫建立步驟為：

A.遍歷所有的URL連接；

B.從URL連接的網頁中提取文本文件(Html)以及Windows文件格式的文件；

C.對網頁文本文件(Html)以及Windows文件格式的文件進行結構化信息抽取、分類，形成結構化信息結構文件存入存儲器；

D.提取結構化信息結構文件中基于關鍵詞的中文分詞；其中，關鍵詞是在詞庫中已建立的單字方式、二元覆蓋方式、地名、名詞性詞組成的詞庫；

E.文檔排重，產生一個文件指紋向量值；具體步驟為：

a，將每個文件頁的中文分詞表示成基于中文分詞的特征向量，使用TF*IDF公式推算出的值作為每個特征項的權值；

b，將特征項按照此權值排序；

c，選取前n個特征項，然后重新按照字符排序；

d，調用MD5算法，將每個特征項串轉化為一個128比特的串，作為該文件頁的指紋向量值；

F.創建含有指紋向量值的文件頁索引。

2.根據權利要求1所述的基于關鍵詞解析調度的搜索引擎方法，其特征在于，所述數據庫建立步驟C，網頁文本文件(Html)文件格式的文件進行結構化信息抽取、分類采用了Htmlparser文件解析程序庫。

3.根據權利要求1所述的基于關鍵詞解析調度的搜索引擎方法，其特征在于，所述數據庫建立步驟C，Windows文件格式的文件進行結構化信息抽取、分類采用了PDFBox來解析PDF文件。

4.根據權利要求1所述的基于關鍵詞解析調度的搜索引擎方法，其特征在于，所述數據庫建立步驟E，使用TF*IDF公式推算出的值作為每個特征項的權值的具體方法是：K_Ki，Di＝F_Ki，Dix(Log₂N/(N_K，D+1))，其中，F_Ki，Di為中文分詞K_i在文件D_i中出現的次數，N為文件集總數，N_K，D為文件集中至少出現一次的中文分詞K_i的文件數。