[發明專利]一種建立索引的方法和裝置有效
| 申請號: | 201710946410.9 | 申請日: | 2017-10-12 |
| 公開(公告)號: | CN110019646B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 焦晨晨 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;陸錦華 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 建立 索引 方法 裝置 | ||
1.一種建立索引的方法,其特征在于,包括:
將輸入的文本序列分為多個詞,根據所述多個詞和所述多個詞的子串得到多個詞與所述詞對應語義項的映射關系;
根據所述多個詞與所述詞對應語義項的映射關系建立第一索引;
通過歷史搜索數據確定候選詞與所述候選詞對應語義項的映射關系,以根據所述候選詞與所述候選詞對應語義項的映射關系修正所述第一索引,獲得第二索引;其中,所述根據所述候選詞與所述候選詞對應語義項的映射關系修正所述第一索引,包括:當所述候選詞與所述候選詞對應語義項的映射關系正確時,如果所述第一索引中不存在所述候選詞與所述候選詞對應語義項的映射關系,則將該映射關系添加到所述第一索引;當所述候選詞與所述候選詞對應語義項的映射關系有誤時,如果所述第一索引中存在所述候選詞與所述候選詞對應語義項的映射關系,則將該映射關系從所述第一索引中刪除。
2.根據權利要求1所述的方法,其特征在于,所述歷史搜索數據包括搜索詞和對應的用戶點擊的文本序列,
通過歷史搜索數據確定候選詞與所述候選詞對應語義項的映射關系的步驟,包括:
對所述搜索詞和所述用戶點擊的文本序列進行分詞,以得到搜索詞分詞和對應的文本序列分詞;
根據所述搜索詞分詞和所述對應的文本序列分詞中存在包含關系的搜索詞分詞和文本序列分詞確定所述候選詞與所述候選詞對應語義項的映射關系。
3.根據權利要求1所述的方法,其特征在于,所述歷史搜索數據包括搜索詞和對應的用戶點擊的文本序列,以及由所述搜索詞形成的搜索軌跡,
通過歷史搜索數據確定候選詞與所述候選詞對應語義項的映射關系的步驟,包括:
獲取預先添加到所述第一索引中的新詞;
從包含所述新詞的搜索軌跡中,查找與所述新詞存在包含關系的搜索詞,并根據所述新詞和與所述新詞存在包含關系的搜索詞確定所述候選詞與所述候選詞對應語義項的映射關系。
4.根據權利要求1所述的方法,其特征在于,所述歷史搜索數據包括搜索詞和對應的用戶點擊的文本序列,
通過歷史搜索數據確定候選詞與所述候選詞對應語義項的映射關系的步驟,包括:
獲取預先添加到所述第一索引中的新詞;
根據所述新詞和與特定文本序列對應的搜索詞中屬于所述新詞的子串的搜索詞確定所述候選詞與所述候選詞對應語義項的映射關系,其中,所述特定文本序列為包括所述新詞的所述用戶點擊的文本序列。
5.根據權利要求1所述的方法,其特征在于,通過歷史搜索數據確定候選詞與所述候選詞對應語義項的映射關系的步驟之后,包括:
判斷所述候選詞與所述候選詞對應語義項的映射關系是否正確,其中包括:
判斷所述候選詞與所述候選詞對應語義項的映射關系中的候選詞對應語義項的總體使用占比是否超過第一閾值,若是,則所述候選詞與所述候選詞對應語義項的映射關系正確,否則,所述候選詞與所述候選詞對應語義項的映射關系有誤,
所述候選詞對應語義項的總體使用占比為N1與N2的比值,其中,N1為所有與包括所述候選詞對應語義項的搜索詞對應、且與所述候選詞與所述候選詞對應語義項的映射關系相關的文本序列的點擊量總和中,由所述候選詞對應語義項召回的點擊量之和,N2為所有與包括所述候選詞對應語義項的搜索詞對應的文本序列點擊量總和。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710946410.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:索引庫構建方法、搜索方法及裝置
- 下一篇:一種關鍵詞搜索方法、裝置和搜索引擎





