[發明專利]基于關鍵詞解析調度的搜索引擎方法無效
| 申請號: | 200710308466.8 | 申請日: | 2007-12-29 |
| 公開(公告)號: | CN101470752A | 公開(公告)日: | 2009-07-01 |
| 發明(設計)人: | 李治平 | 申請(專利權)人: | 指點通(北京)科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京國林貿知識產權代理有限公司 | 代理人: | 李桂玲;李富華 |
| 地址: | 100027北京市東城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關鍵詞 解析 調度 搜索引擎 方法 | ||
1.基于關鍵詞解析調度的搜索引擎方法,該方法包含數據庫建立步驟和用戶網頁搜索步驟,其中用戶網頁搜索步驟為:
A.接收用戶搜索詞,解析關鍵詞提取中文分詞;
B.根據提取的中文分詞在網頁索引中找到文件頁入口;
C.提取該文件頁內容或網頁摘要到移動終端用戶顯示屏幕;
其特征在于,所述數據庫建立步驟為:
A.遍歷所有的URL連接;
B.從URL連接的網頁中提取文本文件(Html)以及Windows文件格式的文件;
C.對網頁文本文件(Html)以及Windows文件格式的文件進行結構化信息抽取、分類,形成結構化信息結構文件存入存儲器;
D.提取結構化信息結構文件中基于關鍵詞的中文分詞;其中,關鍵詞是在詞庫中已建立的單字方式、二元覆蓋方式、地名、名詞性詞組成的詞庫;
E.文檔排重,產生一個文件指紋向量值;具體步驟為:
a,將每個文件頁的中文分詞表示成基于中文分詞的特征向量,使用TF*IDF公式推算出的值作為每個特征項的權值;
b,將特征項按照此權值排序;
c,選取前n個特征項,然后重新按照字符排序;
d,調用MD5算法,將每個特征項串轉化為一個128比特的串,作為該文件頁的指紋向量值;
F.創建含有指紋向量值的文件頁索引。
2.根據權利要求1所述的基于關鍵詞解析調度的搜索引擎方法,其特征在于,所述數據庫建立步驟C,網頁文本文件(Html)文件格式的文件進行結構化信息抽取、分類采用了Htmlparser文件解析程序庫。
3.根據權利要求1所述的基于關鍵詞解析調度的搜索引擎方法,其特征在于,所述數據庫建立步驟C,Windows文件格式的文件進行結構化信息抽取、分類采用了PDFBox來解析PDF文件。
4.根據權利要求1所述的基于關鍵詞解析調度的搜索引擎方法,其特征在于,所述數據庫建立步驟E,使用TF*IDF公式推算出的值作為每個特征項的權值的具體方法是:KKi,Di=FKi,Dix(Log2N/(NK,D+1)),其中,FKi,Di為中文分詞Ki在文件Di中出現的次數,N為文件集總數,NK,D為文件集中至少出現一次的中文分詞Ki的文件數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于指點通(北京)科技有限公司,未經指點通(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710308466.8/1.html,轉載請聲明來源鉆瓜專利網。





