[發明專利]用于生成信息的方法和裝置在審
| 申請號: | 201810067940.0 | 申請日: | 2018-01-24 |
| 公開(公告)號: | CN108287901A | 公開(公告)日: | 2018-07-17 |
| 發明(設計)人: | 王志清 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索詞 用戶標識 搜索信息 方法和裝置 生成信息 詞典查詢 哈希算法 檢索日志 實時搜索 詞序列 索引 預設 查詢 轉換 申請 | ||
本申請公開了用于生成信息的方法和裝置。該方法的一具體實施方式包括:獲取包括至少一個用戶標識和至少一條搜索信息的檢索日志,其中,搜索信息與用戶標識對應;對至少一條搜索信息進行切詞,得到至少一個搜索詞;對于至少一個搜索詞中每個搜索詞,通過哈希算法將該搜索詞轉換成搜索詞數字簽名,以及將搜索詞數字簽名作為索引從預設的意圖詞典查詢意圖詞,其中,意圖詞典用于表征搜索詞數字簽名和意圖詞之間的對應關系;對于至少一個用戶標識中的每個用戶標識,將根據該用戶標識對應的搜索信息查詢到的至少一個意圖詞組成該用戶標識對應的意圖詞序列。該實施方式能夠提高在實時搜索過程中識別用戶的意圖的速度。
技術領域
本申請實施例涉及計算機技術領域,具體涉及用于生成信息的方法和裝置。
背景技術
現有基于搜索詞意圖識別和提取方法也有很多,從實施階段來講分為以下幾種:
(1)離線分析法。將一天的各個機房的全量數據全部匯總后,做數據處理,生成各個用戶的全部行為,然后再基于意圖詞庫分析用戶的意圖識別。
(2)實時分析法。將用戶的搜索詞日志流式的做數據的過濾、清晰、歸一化等,并存儲到用戶數據庫中。業務方再實時的從數據庫中獲取到用戶最近一段時間的搜索詞,然后基于這些搜索詞再做意圖識別和提取,從而挖掘出用戶最近的興趣點。
發明內容
本申請實施例提出了用于生成信息的方法和裝置。
第一方面,本申請實施例提供了一種用于生成信息的方法,包括:獲取包括至少一個用戶標識和至少一條搜索信息的檢索日志,其中,搜索信息與用戶標識對應;對至少一條搜索信息進行切詞,得到至少一個搜索詞;對于至少一個搜索詞中每個搜索詞,通過哈希算法將該搜索詞轉換成搜索詞數字簽名,以及將搜索詞數字簽名作為索引從預設的意圖詞典查詢意圖詞,其中,意圖詞典用于表征搜索詞數字簽名和意圖詞之間的對應關系;對于至少一個用戶標識中的每個用戶標識,將根據該用戶標識對應的搜索信息查詢到的至少一個意圖詞組成該用戶標識對應的意圖詞序列。
在一些實施例中,該方法還包括:將各用戶標識與意圖詞序列關聯存儲。
在一些實施例中,該方法還包括:響應于接收到包括目標用戶標識的查詢請求,查詢是否已經存儲了目標用戶標識對應的意圖詞序列;若已經存儲,則輸出目標用戶標識對應的意圖詞序列。
在一些實施例中,查詢請求包括搜索信息;以及該方法還包括:若沒有存儲,則對查詢請求中的搜索信息進行切詞,得到搜索詞集合;對于搜索詞集合中每個搜索詞,通過哈希算法將該搜索詞轉換成搜索詞數字簽名,以及將搜索詞數字簽名作為索引從預設的意圖詞典查詢意圖詞;輸出根據查詢請求查詢出的意圖詞與查詢請求中的目標用戶標識;根據查詢請求查詢出的意圖詞與查詢請求中的目標用戶標識關聯存儲。
在一些實施例中,該方法還包括:若已經存儲,響應于接收到目標用戶標識對應的意圖詞,將接收到的目標用戶標識對應的意圖詞合并存儲到已經存儲的目標用戶標識對應的意圖詞序列中。
在一些實施例中,獲取包括至少一個用戶標識和至少一條搜索信息的檢索日志,包括:實時采集至少一個用戶訪問搜索引擎時產生的、包括至少一條檢索信息的檢索日志,其中,檢索信息包括用戶標識和搜索信息;對至少一條檢索信息進行數據清洗;從經數據清洗后的至少一條檢索信息中刪除與預定的過濾詞集合匹配的檢索信息;對于刪除后的至少一條檢索信息中的每條檢索信息,從該檢索信息中解析出用戶標識和與該用戶標識對應的搜索信息;從各用戶標識對應的搜索信息中提取搜索詞序列;將解析出的各用戶標識和提取出的搜索詞序列關聯存儲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810067940.0/2.html,轉載請聲明來源鉆瓜專利網。





