[發明專利]檢索方法和裝置在審
| 申請號: | 201710785120.0 | 申請日: | 2017-09-04 |
| 公開(公告)號: | CN107577763A | 公開(公告)日: | 2018-01-12 |
| 發明(設計)人: | 湯海萍;陳海勇 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司11204 | 代理人: | 王達佐,馬曉亞 |
| 地址: | 100080 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 檢索 方法 裝置 | ||
1.一種檢索方法,其特征在于,所述方法包括:
接收客戶端發送的信息獲取請求,其中,所述信息獲取請求包括用戶輸入的目標文本;
對所述目標文本進行解析,生成所述目標文本的特征信息;
將所述特征信息輸入至預先訓練的關鍵詞生成模型,得到所述目標文本的關鍵詞,其中,所述關鍵詞生成模型用于表征文本與關鍵詞的對應關系;
將所得到的關鍵詞作為檢索詞進行檢索,并將檢索結果返回至所述客戶端。
2.根據權利要求1所述的檢索方法,其特征在于,所述對所述目標文本進行解析,生成所述目標文本的特征信息,包括:
對所述目標文本進行分詞,并對分割而成的詞進行處理,得到至少一個目標詞;
確定所述至少一個目標詞中的各個目標詞的詞向量;
將所確定的各個詞向量輸入至預先訓練的循環神經網絡,得到所述循環神經網絡輸出的、與各個目標詞對應的特征向量,其中,所述循環神經網絡用于生成詞的特征;
對所得到的特征向量進行解析,生成所述目標文本的特征信息。
3.根據權利要求2所述的檢索方法,其特征在于,所述循環神經網絡包括多個雙向長短期記憶網絡,所述多個雙向長短期記憶網絡中的每一個雙向長短期記憶網絡包括前向長短期記憶網絡和后向長短期記憶網絡。
4.根據權利要求2所述的檢索方法,其特征在于,所述對所得到的特征向量進行解析,生成所述目標文本的特征信息,包括:
將所得到的各個特征向量輸入至預先訓練的注意力模型,得到所述注意力模型輸出的、各個目標詞在所述目標文本中的權重,其中,所述注意力模型用于生成詞的權重;
基于所得到的各個目標詞的特征向量和各個目標詞的權重,生成所述目標文本的特征信息。
5.根據權利要求2-4之一所述的檢索方法,其特征在于,所述對所述目標文本進行分詞,對分割而成的詞進行處理,得到至少一個目標詞,包括:
對所述目標文本進行分詞;
對于分割而成的每一個詞,響應于確定該詞為大寫英文單詞,將該詞替換為小寫英文單詞;
刪除分割而成的詞中的以下至少一項:數詞、表征產品型號的詞、停用詞、空字符、標點符號。
6.根據權利要求1所述的檢索方法,其特征在于,所述方法還包括建立關鍵詞生成模型的步驟,包括:
提取預先生成的訓練樣本,其中,所述訓練樣本包括預置關鍵詞;
對所述訓練樣本進行解析,生成所述訓練樣本的特征信息;
通過機器學習方法,將所生成的、所述訓練樣本的特征信息作為輸入,將所述預置關鍵詞作為輸出,訓練得到所述關鍵詞生成模型。
7.根據權利要求6所述的檢索方法,其特征在于,在所述提取預先生成的訓練樣本之前,所述方法還包括生成訓練樣本的步驟,包括:
提取多個產品的產品信息,并提取預先存儲的歷史檢索行為信息,其中,所述多個產品中的每一個產品的產品信息包括標題、該產品的產品名稱、品牌名稱和屬性信息,所述歷史檢索行為信息包括用戶輸入的檢索文本和檢索后的點擊操作數據;
對于所述多個產品中的每一個產品,將所提取的該產品的產品名稱、品牌名稱和屬性信息確定為與該產品的標題相對應的標題關鍵詞;
對所述點擊操作數據進行解析,確定與所提取的每一個檢索文本相對應的檢索關鍵詞,其中,與每一個檢索文本相對應的檢索關鍵詞包括在以該檢索詞進行檢索后的、點擊率最高的產品的產品名稱、品牌名稱和屬性信息;
將所提取的產品信息中的標題、標題關鍵詞、所述歷史檢索行為信息中的檢索文本、檢索關鍵詞確定為訓練樣本。
8.一種檢索裝置,其特征在于,所述裝置包括:
接收單元,配置用于接收客戶端發送的信息獲取請求,其中,所述信息獲取請求包括用戶輸入的目標文本;
解析單元,配置用于對所述目標文本進行解析,生成所述目標文本的特征信息;
輸入單元,配置用于將所述特征信息輸入至預先訓練的關鍵詞生成模型,得到所述目標文本的關鍵詞,其中,所述關鍵詞生成模型用于表征文本與關鍵詞的對應關系;
返回單元,配置用于將所得到的關鍵詞作為檢索詞進行檢索,并將檢索結果返回至所述客戶端。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710785120.0/1.html,轉載請聲明來源鉆瓜專利網。





