[發明專利]一種搜索方法、搜索裝置及一種搜索引擎系統有效
| 申請號: | 201110361975.3 | 申請日: | 2011-11-15 |
| 公開(公告)號: | CN103106220A | 公開(公告)日: | 2013-05-15 |
| 發明(設計)人: | 郎皓;唐超;張小洵;薛貴榮 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索 方法 裝置 搜索引擎 系統 | ||
技術領域
本申請涉及網絡技術,特別是涉及一種搜索方法、搜索裝置及一種搜索引擎系統。
背景技術
搜索引擎(search?engine)是指根據一定的策略、運用特定的計算機程序搜集互聯網上的信息,在對信息進行組織和處理后,為用戶提供檢索服務的系統。搜索引擎的出現,為用戶使用網絡信息提供了便利性,用戶可以從互聯網提供的海量數據中檢索出自己需要的信息。
利用現有的搜索引擎系統,如果用戶想從網上下載“王菲”演唱的“螢火蟲”這首歌,若在搜索主頁的搜索框中輸入關鍵詞“螢火蟲”,大多數搜索引擎網站會給出如圖1所示或類似圖1的搜索結果。在這些搜索結果中,排在最前位置的是介紹“螢火蟲”這種動物的網頁鏈接,這個結果顯然不符合用戶的搜索意圖。
為了改善這種情況,有些搜索引擎系統提供了分類搜索功能,利用這種搜索引擎系統,用戶可進入音樂類的搜索頁面,然后在搜索框中輸入關鍵詞“螢火蟲”,此時多數搜索引擎網站又會給出如圖2或圖3所示的類似搜索結果。這些搜索結果雖然列出了歌曲的鏈接,但是,在歌曲名同名而歌手不同或多個歌手演唱同一首歌的情況下,搜索結果中排在最前位置的歌曲鏈接并不是流傳度最廣、多數用戶最想找的王菲演唱的“螢火蟲”,而是其他歌手演唱的“螢火蟲”。此時,用戶需要在搜索結果中一條一條地查找王菲演唱的“螢火蟲”,非常麻煩。此外,有些搜索結果還不是針對歌曲“螢火蟲”的鏈接,而是其他的歌曲,只是這些歌曲的名字或歌詞中出現了“螢火蟲”一詞,如圖2所示。這樣,搜索的準確度就更難保證了。
因此,目前的搜索引擎在識別用戶搜索意圖時還不夠準確,進而影響了搜索精度。
發明內容
本申請提供了一種搜索方法、搜索裝置及一種搜索引擎系統,以解決現有技術在識別用戶搜索意圖時不夠準確,進而影響搜索精度的問題。
為了解決上述問題,本申請公開了一種搜索方法,包括:
接收實時搜索字符串;
將所述實時搜索字符串與預生成的詞典進行匹配,所述詞典是第一類詞和第二類詞的集合;
如果所述實時搜索字符串中的某部分與詞典中的某個類別的第二類詞匹配上,則將該部分替換為所述第二類詞所屬類別的標簽,匹配完成后的實時搜索字符串包含第一類詞和/或第二類詞所屬類別的標簽和/或未匹配上的部分;
依據預生成的模式確定匹配完成后的實時搜索字符串的特定搜索意圖,并依據所述的特定搜索意圖返回搜索結果數據。
優選地,所述預生成的模式由元數據類別的標簽組成,和/或由意圖詞和元數據類別的標簽組成;所述詞典中的第一類詞是所述模式中的意圖詞;所述詞典中的第二類詞是關系數據中的元數據。
優選地,所述方法還包括預生成模式的步驟:將歷史搜索數據中的歷史搜索字符串依次與關系數據中的元數據進行匹配,如果歷史搜索字符串中的某部分與某個類別的元數據匹配上,則將該部分替換為所述元數據類別的標簽;統計匹配完成后的歷史搜索字符串出現的頻次,并基于該統計的頻次進行排序,將頻次超過閾值的匹配完成后的歷史搜索字符串作為模式。
優選地,將所述實時搜索字符串與預生成的詞典進行匹配,包括:將所述實時搜索字符串從左至右順次與預生成的詞典進行完全匹配。
優選地,所述依據預生成的模式確定匹配完成后的實時搜索字符串的特定搜索意圖,包括:如果匹配完成后的實時搜索字符串由第二類詞所屬類別的標簽組成,和/或,由第一類詞和第二類詞所屬類別的標簽組成,則所述匹配完成后的實時搜索字符串與預生成的某個模式相匹配,所述匹配完成后的實時搜索字符串具有該模式表示的特定搜索意圖。
優選地,依據所述的特定搜索意圖返回搜索結果數據,包括:將與所述的特定搜索意圖相對應的特定結果數據排在所有搜索結果數據的第一位返回。
優選地,所述的特定結果數據包括多個相關聯的元數據信息,點擊每個元數據信息的鏈接可進入相應的詳情頁面。
本申請還提供了一種搜索裝置,包括:
輸入模塊,用于接收實時搜索字符串;
實時匹配模塊,用于將所述實時搜索字符串與預生成的詞典進行匹配,所述詞典是第一類詞和第二類詞的集合;
替換模塊,用于當所述實時搜索字符串中的某部分與詞典中的某個類別的第二類詞匹配上時,將該部分替換為所述第二類詞所屬類別的標簽,匹配完成后的實時搜索字符串包含第一類詞和/或第二類詞所屬類別的標簽和/或未匹配上的部分;
實時輸出模塊,用于依據預生成的模式確定匹配完成后的實時搜索字符串的特定搜索意圖,并依據所述的特定搜索意圖返回搜索結果數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110361975.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:定時器的處理方法及裝置
- 下一篇:一種布料滾筒式烘干裝置





