[發明專利]一種用于搜索業務的詞匯處理方法及系統在審
| 申請號: | 201610615378.1 | 申請日: | 2016-07-29 |
| 公開(公告)號: | CN107665217A | 公開(公告)日: | 2018-02-06 |
| 發明(設計)人: | 陳亞;鄧凱;李菁;程進興 | 申請(專利權)人: | 蘇寧云商集團股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 江蘇圣典律師事務所32237 | 代理人: | 蘇一幟 |
| 地址: | 210042 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 搜索 業務 詞匯 處理 方法 系統 | ||
1.一種用于搜索業務的詞匯處理方法,其特征在于,包括:
分析接收到的搜索詞,并得到所述搜索詞的前綴樹和后綴樹;
根據所述搜索詞的前綴樹和后綴樹,從基本聯想詞詞庫和個性化聯想詞詞庫中得到聯想詞集合,所述基本聯想詞詞庫至少包括搜索頻率大于等于預設門限的搜索詞,所述個性化聯想詞詞庫包括從對應用戶的搜索日志中提取的搜索詞;
從所述聯想詞集合中提取指定數量的詞組,并反饋至用戶設備。
2.根據權利要求1所述的方法,其特征在于,還包括:
獲取原始詞組,并根據所述原始詞組建立所述個性化聯想詞詞庫,所述原始詞組包括從搜索數據庫獲取的熱搜詞、商品清單目錄中記錄的點擊量高于閾值的目錄詞,和/或從人工維護的詞庫中提取的人工詞。
3.根據權利要求1所述的方法,其特征在于,所述從所述聯想詞集合中提取指定數量的詞組,包括:
根據預設的關聯規則,對所述聯想詞集合中詞組按照關聯程度由高至低的順序排序;
按照所述聯想詞集合中詞組的排列結果,提取所述指定數量的詞組。
4.根據權利要求3所述的方法,其特征在于,所述根據所述搜索詞的前綴樹和后綴樹,從基本聯想詞詞庫和個性化聯想詞詞庫中得到聯想詞集合,包括:
從基本聯想詞詞庫和個性化聯想詞詞庫中得到與所述搜索詞完全匹配的詞組、與所述搜索詞的前綴樹匹配的詞組,和與所述搜索詞的后綴樹匹配的詞組;
所述對所述聯想詞集合中詞組按照關聯程度由高至低的順序排序,包括:在所述聯想詞集合中,將所述與所述搜索詞完全匹配的詞組按照關聯程度高于所述與所述搜索詞的前綴匹配的詞組的順序排列,并將所述與所述搜索詞的前綴匹配的詞組按照關聯程度高于所述與所述搜索詞的后綴匹配的詞組的順序排列。
5.根據權利要求4所述的方法,其特征在于,所述從基本聯想詞詞庫和個性化聯想詞詞庫中得到與所述搜索詞的前綴樹匹配的詞組,和與所述搜索詞的后綴樹匹配的詞組,包括:
根據所述搜索詞的前綴樹中表示中文、拼音或簡拼的字符,從所述基本聯想詞詞庫和所述個性化聯想詞詞庫中得到與所述搜索詞的前綴樹匹配的詞組;
當從所述基本聯想詞詞庫和所述個性化聯想詞詞庫中得到的與所述搜索詞的前綴樹匹配的詞組數量小于最低值時,采用所述搜索詞的后綴樹進行補充搜索。
6.根據權利要求1或5所述的方法,其特征在于,還包括:
對每個搜索詞的前綴樹和后綴樹所在的節點進行預處理(pre-processing);
和/或,對所述基本聯想詞詞庫和所述個性化聯想詞詞庫中的詞組進行建立索引(indexing),并在每個節點存儲相應的索引(index)。
7.根據權利要求1所述的方法,其特征在于,還包括:
得到所述聯想詞集合后,對于所述聯想詞集合中任意兩個詞組,獲取所述兩個詞組之間的相似度;
根據所述兩個詞組之間的相似度判定所述兩個詞組是否相似,若是則作去重處理。
8.根據權利要求7所述的方法,其特征在于,所述根據所述兩個詞組之間的相似度判定所述兩個詞組是否相似,包括:
若所述兩個詞組具有互不相同的分類標識,則判定所述兩個詞組互不相似;
若所述兩個詞組中只有一個詞組具有分類標識,且所述兩個詞組的名稱信息匹配成功,則當所述兩個詞組之間的相似度大于0.87時,則判定所述兩個詞組相似;
若所述兩個詞組都具有分類標識,且所述兩個詞組的名稱信息匹配成功,則當所述兩個詞組之間的相似度大于0.8時,則判定所述兩個詞組相似。
9.一種用于搜索業務的詞匯處理系統,其特征在于,至少包括:線下模塊、線上模塊和存儲模塊;
所述線上模塊,用于分析接收到的搜索詞,并得到所述搜索詞的前綴樹和后綴樹;并根據所述搜索詞的前綴樹和后綴樹,從所述線下模塊存儲的基本聯想詞詞庫和個性化聯想詞詞庫中得到聯想詞集合,所述基本聯想詞詞庫至少包括搜索頻率大于等于預設門限的搜索詞,所述個性化聯想詞詞庫包括從對應用戶的搜索日志中提取的搜索詞;并從所述聯想詞集合中提取指定數量的詞組,并反饋至用戶設備;
所述線下模塊,用于根據所述存儲模塊中存儲的業務數據,建立并更新所述基本聯想詞詞庫和所述個性化聯想詞詞庫,所述業務數據至少包括:各搜索詞的搜索頻率和對應用戶的搜索日志。
10.根據權利要求9所述的系統,其特征在于,所述線下模塊,具體用于獲取原始詞組,并根據所述原始詞組建立所述個性化聯想詞詞庫,所述原始詞組包括從搜索存儲模塊獲取的熱搜詞、商品清單目錄中記錄的點擊量高于閾值的目錄詞,和/或從人工維護的詞庫中提取的人工詞;
所述線上模塊,具體用于從基本聯想詞詞庫和個性化聯想詞詞庫中得到與所述搜索詞完全匹配的詞組、與所述搜索詞的前綴樹匹配的詞組,和與所述搜索詞的后綴樹匹配的詞組;并在所述聯想詞集合中,將所述與所述搜索詞完全匹配的詞組按照關聯程度高于所述與所述搜索詞的前綴匹配的詞組的順序排列,并將所述與所述搜索詞的前綴匹配的詞組按照關聯程度高于所述與所述搜索詞的后綴匹配的詞組的順序排列;
所述線上模塊,具體還用于根據預設的關聯規則,對所述聯想詞集合中詞組按照關聯程度由高至低的順序排序;并按照所述聯想詞集合中詞組的排列結果,提取所述指定數量的詞組;
所述線上模塊,具體還用于根據所述搜索詞的前綴樹中表示中文,拼音或簡拼的字符,從所述基本聯想詞詞庫和所述個性化聯想詞詞庫中得到與所述搜索詞的前綴樹匹配的詞組;當從所述基本聯想詞詞庫和所述個性化聯想詞詞庫中得到的與所述搜索詞的前綴樹匹配的詞組數量小于最低值時,采用所述搜索詞的后綴樹進行補充搜索;
所述線上模塊,具體還用于在得到所述聯想詞集合后,對于所述聯想詞集合中任意兩個詞組,獲取所述兩個詞組之間的相似度;并根據所述兩個詞組之間的相似度判定所述兩個詞組是否相似,若是則作去重處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇寧云商集團股份有限公司,未經蘇寧云商集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610615378.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據庫訪問方法及中間件
- 下一篇:一種搜索方法、裝置及電子設備





