[發明專利]一種搜索引擎的補充搜索方法和裝置在審
| 申請號: | 201710946792.5 | 申請日: | 2017-10-12 |
| 公開(公告)號: | CN107609192A | 公開(公告)日: | 2018-01-19 |
| 發明(設計)人: | 鄭海貴;邵榮防;郝暉;歐陽碩;張小衛;李銳偉 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 中原信達知識產權代理有限責任公司11219 | 代理人: | 張一軍,姜勁 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索引擎 補充 搜索 方法 裝置 | ||
技術領域
本發明涉及計算機技術領域,尤其涉及一種搜索引擎的補充搜索方法、裝置、電子設備和計算機可讀介質。
背景技術
以搜索詞為關鍵詞在搜索引擎中進行搜索查詢已經是互聯網應用的慣常手段,但是根據搜索詞的不同,有時得到的搜索結果卻不盡如人意,用戶輸入的搜索詞有時是不規范的(存在錯別字等情況),或者搜索詞本身與搜索引擎的數據庫不匹配時,返回的結果數量過少,甚至無結果返回。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
現有技術往往只對搜索詞進行簡單地分詞重組處理后,以重組后的搜索詞進行搜索,這種解決辦法會導致重組后的搜索詞信息混亂,沒有針對性,導致搜索結果混雜,有時重組后的搜索詞仍不能得到更加匹配的搜索結果,甚至無結果返回,極大地降低了用戶體驗。
發明內容
有鑒于此,本發明實施例提供一種搜索引擎的補充搜索方法和裝置,能夠根據優質詞庫有針對性地補充與搜索詞相關的搜索結果,尤其對商品搜索時,能夠有針對性地補充相關商品的搜索結果,提高用戶體驗。
為實現上述目的,根據本發明實施例的一個方面,提供了一種搜索引擎的補充搜索方法,包括:對搜索詞進行分詞,得到多個字串;從分詞的結果中選擇一個或多個獨立字串,并且/或者選擇一組或多組的兩個以上字串然后分別進行組合以得到一個或多個組合字串,再將所述一個或多個獨立字串和/或所述一個或多個組合字串組成字串集;根據預定義優質詞庫對所述字串集進行過濾,將過濾后的所述字串集中的成員作為候選搜索詞;以所述候選搜索詞作為新的搜索詞進行搜索。
可選地,在根據預定義優質詞庫對所述字串集進行過濾的步驟之前,按照如下選取條件確定所述預定義優質詞庫中的預定義優質詞:所述預定義優質詞在近期搜索詞歷史記錄中出現過;所述預定義優質詞在搜索詞歷史記錄中的被搜索的總量大于或等于搜索量閾值;所述預定義優質詞在搜索詞歷史記錄中的點擊率大于或等于點擊率閾值。
可選地,在根據預定義優質詞庫對所述字串集進行過濾,將過濾后的所述字串集中的成員作為候選搜索詞之后,所述方法還包括:計算每個所述候選搜索詞的綜合分其中,所述綜合分的計算公式為:
m=2α+1.5β+γ+0.1 lgδ
α表示所述候選搜索詞是否包含產品詞字串,是則置1,否則置0,
β表示所述候選搜索詞是否包含品牌詞字串,是則置1,否則置0,
γ表示所述候選搜索詞中所包含的字串的數量,
δ表示所述候選搜索詞的優質分;
選取其中所述綜合分較高的候選搜索詞作為新的搜索詞進行搜索。
可選地,所述優質分的計算公式為:
其中,xi為所述優質詞在所述搜索詞歷史記錄中第i天的搜索量,y為預定義經驗值,i=1,2,3…,n。
為實現上述目的,根據本發明實施例的另一個方面,提供了一種搜索引擎的補充搜索裝置,包括:分詞模塊,用于對搜索詞進行分詞,得到多個字串;重組模塊,用于從分詞的結果中選擇一個或多個獨立字串,并且/或者選擇一組或多組的兩個以上字串然后分別進行組合以得到一個或多個組合字串,再將所述一個或多個獨立字串和/或所述一個或多個組合字串組成字串集;過濾模塊,用于根據預定義優質詞庫對所述字串集進行過濾,將過濾后的所述字串集中的成員作為候選搜索詞;搜索模塊,用于以所述候選搜索詞作為新的搜索詞進行搜索。
可選地,在所述過濾模塊根據預定義優質詞庫對所述字串集進行過濾的步驟之前,按照如下選取條件確定所述預定義優質詞庫中的預定義優質詞:所述預定義優質詞在近期搜索詞歷史記錄中出現過;所述預定義優質詞在搜索詞歷史記錄中的被搜索的總量大于或等于搜索量閾值;所述預定義優質詞在搜索詞歷史記錄中的點擊率大于或等于點擊率閾值。
可選地,所述裝置還包括:優化模塊,用于在所述過濾模塊根據預定義優質詞庫對所述字串集進行過濾,將過濾后的所述字串集中的成員作為候選搜索詞之后,計算每個所述候選搜索詞的綜合分其中,所述綜合分的計算公式為:
m=2α+1.5β+γ+0.1 lgδ
α表示所述候選搜索詞是否包含產品詞字串,是則置1,否則置0;
β表示所述候選搜索詞是否包含品牌詞字串,是則置1,否則置0;
γ表示所述候選搜索詞中所包含的字串的數量;
δ表示述候選搜索詞的優質分。
所述搜索模塊還用于選取其中所述綜合分較高的候選搜索詞作為新的搜索詞進行搜索。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710946792.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:自動販賣機(小格子)
- 下一篇:紡織面料(2017?23)





