[發(fā)明專(zhuān)利]基于關(guān)鍵詞解析調(diào)度的搜索引擎方法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 200710308466.8 | 申請(qǐng)日: | 2007-12-29 |
| 公開(kāi)(公告)號(hào): | CN101470752A | 公開(kāi)(公告)日: | 2009-07-01 |
| 發(fā)明(設(shè)計(jì))人: | 李治平 | 申請(qǐng)(專(zhuān)利權(quán))人: | 指點(diǎn)通(北京)科技有限公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 北京國(guó)林貿(mào)知識(shí)產(chǎn)權(quán)代理有限公司 | 代理人: | 李桂玲;李富華 |
| 地址: | 100027北京市東城區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 關(guān)鍵詞 解析 調(diào)度 搜索引擎 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)領(lǐng)域,特別涉及移動(dòng)終端網(wǎng)絡(luò)中基于關(guān)鍵詞解析調(diào)度的搜索引擎方法。
背景技術(shù)
搜索引擎因其能在幾乎無(wú)限的網(wǎng)絡(luò)資源中搜索到用戶所需要的信息而備受重視,目前的搜索引擎大都是網(wǎng)頁(yè)搜索引擎,它是將網(wǎng)頁(yè)作為最小單位,采用的是鏈接分析的方法為用戶找到需要的信息;其中,太多的無(wú)用信息也會(huì)伴隨著用戶需要信息產(chǎn)生出來(lái),影響用戶有用信息的查詢速度和準(zhǔn)確性;而目前的移動(dòng)終端用戶由于終端顯示屏幕較小,網(wǎng)絡(luò)帶寬窄,其信息的搜索更偏重于行業(yè)性和專(zhuān)業(yè)性;采用傳統(tǒng)的搜索引擎,大量的無(wú)用信息影響了移動(dòng)終端用戶的信息搜索;申請(qǐng)?zhí)枮?004100266745的中國(guó)發(fā)明專(zhuān)利申請(qǐng)公開(kāi)了“一種基于關(guān)鍵字搜索的移動(dòng)互聯(lián)網(wǎng)智能信息搜索引擎”,該項(xiàng)專(zhuān)利申請(qǐng)說(shuō)明書(shū)第3頁(yè)第2-5段表達(dá)了形成搜索引擎完整的搜索規(guī)則,其過(guò)程是要“利用系統(tǒng)自動(dòng)分析目標(biāo)網(wǎng)站結(jié)構(gòu),采用相應(yīng)的具有相似布局的html網(wǎng)頁(yè)信息,自動(dòng)生成內(nèi)容表達(dá)式,并根據(jù)人工決策,生成確切定位的目標(biāo)網(wǎng)元的內(nèi)容匹配表達(dá)式,以及通過(guò)內(nèi)容匹配表達(dá)式獲得的目標(biāo)網(wǎng)元,以及目標(biāo)網(wǎng)元和欄目分類(lèi)的映射關(guān)系,形成一個(gè)網(wǎng)元映射圖,生成一個(gè)內(nèi)容獲取表達(dá)式構(gòu)成搜索規(guī)則“。說(shuō)明書(shū)第2頁(yè)倒數(shù)第1段,第3頁(yè)第6段敘述了根據(jù)上述搜索規(guī)則建立的全文索引信息庫(kù),其中,搜索規(guī)則和全文索引信息庫(kù)的建立繁瑣復(fù)雜。
該專(zhuān)利關(guān)鍵字針對(duì)的是搜索引擎的使用,并是基于因特網(wǎng)上無(wú)限大的網(wǎng)絡(luò)資源進(jìn)行搜索,其結(jié)果是有大量的不必要的信息影響搜索結(jié)果的排序和顯示效果、影響精確度、部分頁(yè)面無(wú)法抓取到、用戶對(duì)搜索范圍和內(nèi)容以及體現(xiàn)的結(jié)果無(wú)法精確控制、速度慢,消耗大量的硬件資源,無(wú)法滿足移動(dòng)終端用戶更偏重于行業(yè)性和專(zhuān)業(yè)性信息搜索的需要。
發(fā)明內(nèi)容
本發(fā)明的目的是對(duì)行業(yè)性和專(zhuān)業(yè)性信息搜索而提出的基于關(guān)鍵詞解析調(diào)度的搜索引擎方法,本發(fā)明在信息文件索引庫(kù)的建立上,采用了基于關(guān)鍵詞的中文分詞創(chuàng)建含有指紋向量值的文件頁(yè)索引,提高了搜索引擎搜索的快速和準(zhǔn)確性。
為了實(shí)現(xiàn)上述目的,本發(fā)明的一種基于關(guān)鍵詞解析調(diào)度的搜索引擎方法,該方法是在網(wǎng)絡(luò)服務(wù)器中分為三層設(shè)置的一種搜索引擎結(jié)構(gòu)下實(shí)現(xiàn)的,該搜索引擎的三層設(shè)置結(jié)構(gòu)是:
一)用于輸入搜索信息的通訊層,所述通訊層是一個(gè)網(wǎng)絡(luò)通信協(xié)議管理包;該網(wǎng)絡(luò)通信協(xié)議管理包含有WAP、Web、MMS、MSN、SGIP、CMPP網(wǎng)絡(luò)通信協(xié)議;該管理包將上述協(xié)議進(jìn)行統(tǒng)一的二次封裝,實(shí)現(xiàn)系統(tǒng)內(nèi)數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一處理;
二)用于處理搜索信息的解析調(diào)度層,該調(diào)度解析層包括行業(yè)關(guān)鍵詞庫(kù)、行業(yè)上下文關(guān)聯(lián)庫(kù)、自然語(yǔ)言拆詞解析模塊和調(diào)度控制管理模塊;
三)用于數(shù)據(jù)處理的垂直(分類(lèi))查詢數(shù)據(jù)庫(kù)層,該數(shù)據(jù)庫(kù)層包括均衡負(fù)載服務(wù)器、數(shù)據(jù)分類(lèi)服務(wù)器和數(shù)據(jù)索引服務(wù)器;其特點(diǎn)是,在所述的數(shù)據(jù)分類(lèi)服務(wù)器中設(shè)有結(jié)構(gòu)化信息結(jié)構(gòu)文件數(shù)據(jù)庫(kù),所述的數(shù)據(jù)索引服務(wù)器包含有用戶內(nèi)容索引建立接口、用戶內(nèi)容分詞接口和用戶數(shù)據(jù)搜索接口。
輸入的搜索信息通過(guò)網(wǎng)絡(luò)通信協(xié)議管理進(jìn)入處理搜索信息的調(diào)度解析層,在該解析層運(yùn)用自然語(yǔ)言拆詞解析模塊和調(diào)度控制管理模塊找出一個(gè)關(guān)鍵詞,在行業(yè)關(guān)鍵詞庫(kù)或行業(yè)上下文關(guān)聯(lián)庫(kù)中查找出對(duì)應(yīng)行業(yè)的行業(yè)關(guān)鍵詞;將行業(yè)關(guān)鍵詞送入垂直查詢數(shù)據(jù)庫(kù)層,運(yùn)用均衡負(fù)載服務(wù)器、數(shù)據(jù)分類(lèi)服務(wù)器和數(shù)據(jù)索引服務(wù)器,在結(jié)構(gòu)化信息結(jié)構(gòu)文件數(shù)據(jù)庫(kù)中將所需的專(zhuān)業(yè)數(shù)據(jù)返回到用戶的顯示界面。
該方法包含數(shù)據(jù)庫(kù)建立步驟和用戶網(wǎng)頁(yè)搜索步驟,其中用戶網(wǎng)頁(yè)搜索步驟為:
1.接收用戶搜索詞,提取基于關(guān)鍵詞的中文分詞;
2.根據(jù)提取的中文分詞在網(wǎng)頁(yè)索引中找到文件頁(yè)入口;
3.提取該文件頁(yè)內(nèi)容或網(wǎng)頁(yè)摘要到移動(dòng)終端用戶顯示屏幕;
數(shù)據(jù)庫(kù)建立步驟為:
1.遍歷所有的URL連接;
2.從URL連接的網(wǎng)頁(yè)中提取文本文件(Html)以及Windows文件格式的文件;
3.對(duì)網(wǎng)頁(yè)文本文件(Html)以及Windows文件格式的文件進(jìn)行結(jié)構(gòu)化信息抽取、分類(lèi),形成結(jié)構(gòu)化信息結(jié)構(gòu)文件存入存儲(chǔ)器;
4.提取結(jié)構(gòu)化信息結(jié)構(gòu)文件中基于關(guān)鍵詞的中文分詞;其中,關(guān)鍵詞是在詞庫(kù)中已建立的單字方式、二元覆蓋方式、地名、名詞性詞組成的詞庫(kù);
5.文檔排重,產(chǎn)生一個(gè)文件指紋向量值,具體步驟為:
a,將每個(gè)文件頁(yè)的中文分詞表示成基于中文分詞的特征向量,使用TF*IDF公式推算出的值作為每個(gè)特征項(xiàng)的權(quán)值;
b,將特征項(xiàng)按照此權(quán)值排序;
c,選取前n個(gè)特征項(xiàng),然后重新按照字符排序(否則找不到對(duì)應(yīng)關(guān)系了);
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于指點(diǎn)通(北京)科技有限公司,未經(jīng)指點(diǎn)通(北京)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710308466.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備
- 旅游車(chē)輛調(diào)度監(jiān)控方法及其系統(tǒng)
- 一種用戶隊(duì)列調(diào)度的方法和裝置
- 一種資源調(diào)度的方法、裝置和過(guò)濾式調(diào)度器
- 一種調(diào)度方法和裝置
- 一種調(diào)度終端動(dòng)態(tài)切換調(diào)度組歸屬關(guān)系的方法及裝置
- 用戶調(diào)度方法、裝置、基站和存儲(chǔ)介質(zhì)
- 一種食材的調(diào)度系統(tǒng)和方法
- 一種資源調(diào)度的方法、裝置和過(guò)濾式調(diào)度器
- 任務(wù)調(diào)度方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種自動(dòng)化調(diào)度系統(tǒng)和調(diào)度方法





