[發(fā)明專利]一種智能垂直搜索方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 201410328404.3 | 申請日: | 2011-09-29 |
| 公開(公告)號: | CN104063513A | 公開(公告)日: | 2014-09-24 |
| 發(fā)明(設(shè)計)人: | 趙軼;許小東 | 申請(專利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 智能 垂直 搜索 方法 系統(tǒng) | ||
本發(fā)明專利申請是申請日為2011年09月29日、申請?zhí)枮?01110300772.3、名稱為“一種智能垂直搜索方法和系統(tǒng)”的中國發(fā)明專利申請的分案申請。
技術(shù)領(lǐng)域
本申請涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種智能垂直搜索方法和系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的信息呈現(xiàn)爆炸性的發(fā)展,這導(dǎo)致用戶如果想要在網(wǎng)絡(luò)中尋找到自己需要的信息,必須通過搜索去獲取自己需要的信息,搜索是廣大網(wǎng)民獲取信息,到達指定網(wǎng)站的主要渠道。
現(xiàn)有技術(shù)中,一種是通用搜索,通過搜索引擎主動派出“蜘蛛”程序,對整個互聯(lián)網(wǎng)的網(wǎng)站信息進行檢索,蜘蛛爬蟲在抓取一個頁面后,對該頁面進行分析入庫,并讀取頁面的所有連接,然后對這些連接再進行抓取分析。通過上千蜘蛛的周期性不停抓取,實現(xiàn)了對整個互聯(lián)網(wǎng)的所有網(wǎng)頁信息的索引,并直接根據(jù)關(guān)鍵詞匹配將所有與該關(guān)鍵詞相關(guān)的信息以相關(guān)度排序返回給用戶,其優(yōu)點是搜索范圍廣,但缺點是用戶通過關(guān)鍵詞搜索返回的是大而全的結(jié)果,沒法提供按行業(yè)特征進行分類篩選的服務(wù),無法分類顯示,然而哪些內(nèi)容是用戶本次搜索中想搜到的則無法進行判斷,用戶需要花很長時間在結(jié)果中找自己需要的信息。
另外一種是垂直搜索,其站內(nèi)資源的深度搜索,用戶在其網(wǎng)站上添加相應(yīng)數(shù)據(jù),系統(tǒng)對該數(shù)據(jù)進行檢查與過濾,搜索引擎將這些數(shù)據(jù)進行中文分詞建立索引,供其他用戶查詢,是某個網(wǎng)站針對其站內(nèi)信息的搜索服務(wù),其網(wǎng)站內(nèi)的信息是由其站內(nèi)用戶直接將各種信息添加入該網(wǎng)站的各個分類中,其優(yōu)點是分類清晰,但缺點是搜索范圍較窄,提供的結(jié)果不夠全面,用戶需通過與其他搜索引擎配合使用才能了解到全面的信息。
發(fā)明內(nèi)容
本申請所要解決的技術(shù)問題是提供一種垂直智能垂直搜索方法和系統(tǒng),解決用戶在搜索信息時無法全面、準確、快速的獲取相關(guān)信息的缺點。
為了解決上述問題,本申請公開了一種智能垂直搜索方法,包括:
獲取用戶端選擇的一行業(yè)中輸入的查詢詞;
根據(jù)所述查詢詞與分類數(shù)據(jù)庫中的該行業(yè)已分類的各條目匹配的結(jié)果,獲取各類別與查詢詞相關(guān)的條目,并按類別將各所述類別的條目及相關(guān)信息展現(xiàn)給用戶;其中,所述的條目為電子商務(wù)網(wǎng)頁中的一項或多項業(yè)務(wù)內(nèi)容;
其中,所述該行業(yè)已分類的各條目通過以下步驟獲得:
獲取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息;
將各條目中的關(guān)鍵詞與該行業(yè)各類別對應(yīng)的關(guān)鍵詞的詞法匹配結(jié)果進行加權(quán)分析確定各條目所屬類別;
和/或,根據(jù)未分類條目的各關(guān)鍵詞的出現(xiàn)次數(shù)比率與根據(jù)預(yù)先統(tǒng)計獲得的已分類條目的各關(guān)鍵詞的出現(xiàn)概率的相似度確定各條目所屬類別。
優(yōu)選的,所述的查詢詞包括:
將用戶的輸入的關(guān)鍵詞作為查詢詞;
或者,將用戶選擇的根據(jù)該用戶的輸入詞返回的建議詞中的一個作為查詢詞;其中,所述的建議詞通過預(yù)先統(tǒng)計的用戶輸入的輸入詞與對應(yīng)結(jié)果的點擊關(guān)系提取獲得。
優(yōu)選的,還包括以下安全檢測步驟:
步驟A、對于所述獲取的待分類的每個條目所在的鏈接地址,通過安全檢查引擎和木馬查殺引擎檢查所述鏈接地址是否安全,如果安全,則對所述條目進行分類;
和/或,步驟B,對于所述分類數(shù)據(jù)庫中的已分類的條目所在的鏈接地址,通過安全檢查引擎不斷遍歷每個鏈接地址,如果不安全,則將該鏈接地址的相關(guān)數(shù)據(jù)從分類數(shù)據(jù)庫中刪除;
和/或,步驟C,對于用戶點擊的一條目所在的鏈接地址,通過安全檢查引擎檢查該鏈接地址是否安全,如果不安全,則提示用戶并在分類數(shù)據(jù)庫中將該鏈接地址的相關(guān)數(shù)據(jù)刪除。
優(yōu)選的,通過安全檢查引擎和木馬查殺引擎檢查所述鏈接地址是否安全的過程通過以下步驟進行:
步驟P1,對于所述獲取的待分類的每個條目所在的鏈接地址,將該鏈接地址提交給安全檢查引擎檢查其是否在安全等級庫中存在;
步驟P2,如果存在并安全,則對所述條目進行分類;
步驟P3,如果存在但不安全,則發(fā)送警告信息,并過濾掉該鏈接地址的相關(guān)數(shù)據(jù);
步驟P4,如果不存在,則通過木馬查殺引擎檢查該鏈接地址,判斷該鏈接是否安全,如果安全,將該鏈接地址存入安全等級庫,并轉(zhuǎn)入步驟P1。
優(yōu)選的,還包括以下安全檢測步驟:
通過包括所述條目的鏈接地址icp備案信息和/或網(wǎng)站實名認證系統(tǒng)對所述條目進行安全檢測。
優(yōu)選的,在獲取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息時包括:
自動抓取步驟,用于自動抓取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410328404.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





