[發明專利]一種基于相關性的搜索詞處理方法、裝置及計算設備有效
| 申請號: | 201710515009.X | 申請日: | 2017-06-29 |
| 公開(公告)號: | CN107220384B | 公開(公告)日: | 2019-11-15 |
| 發明(設計)人: | 方軻 | 申請(專利權)人: | 北京拉勾科技有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F17/27 |
| 代理公司: | 11396 北京思睿峰知識產權代理有限公司 | 代理人: | 謝建云;趙愛軍<國際申請>=<國際公布> |
| 地址: | 100080北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索詞 關鍵詞序列 可用 特征詞 分詞處理 計算模型 計算設備 輸出 日志 替換 搜索 轉換 | ||
本發明公開了一種基于相關性的搜索詞處理方法、裝置及計算設備,該方法包括:獲取各用戶的搜索日志以提取可用搜索詞;對各可用搜索詞進行分詞處理,以獲取其對應的一個或更多個特征詞;將特征詞進行轉換以生成對應的關鍵詞,組合一個或更多個對應的關鍵詞,以形成與可用搜索詞對應的關鍵詞序列;從各關鍵詞序列對應的可用搜索詞中,選擇出現頻次最高的可用搜索詞作為該關鍵詞序列的特定搜索詞;將各關鍵詞序列分別輸入到相關性計算模型進行訓練,按照相關性從大到小的順序輸出與輸入的關鍵詞序列相關的第一數量個關鍵詞序列;將第一數量個輸出的關鍵詞序列替換為其對應的特定搜索詞,形成關鍵詞序列與第一數量個特定搜索詞間的對應關系。
技術領域
本發明涉及互聯網技術領域,特別涉及一種基于相關性的搜索詞處理方法、裝置及計算設備。
背景技術
隨著互聯網技術的快速發展,越來越多的人開始享受互聯網為工作和生活帶來的各種便利。比如需要獲取信息時,可通過在瀏覽器中鍵入搜索詞,利用搜索引擎來進行與搜索詞相關的信息搜索。而在用戶搜索一個關鍵詞時,往往也希望搜索其相關關鍵詞,例如用戶輸入“java”,可能存在更符合其意圖的關鍵詞,如“java web”、“java后端”。因此,針對用戶關鍵詞,結合不同關鍵詞之間的聯系,準確提供其相關詞匯能幫助用戶節省輸入時間,同時提升轉化率。
目前的主流方法是后繼詞結合協同過濾算法,主要思想是:考慮到用戶輸入“三國志”,得到搜索結果的幾分鐘內再次輸入“真三國無雙”,可以認為具有相同后繼詞的用戶查詢詞條有一定相似度,如果用戶輸入數據足夠,基于協同過濾算法能可給出這些詞條的相關搜索詞。然而,后繼詞結合協同過濾算法仍存在不小的缺陷,特別是在招聘行業的網站內部搜索中,問題更為明顯。
相比大型網站,招聘行業搜索數據體量并不大,用戶查詢詞條同質化嚴重,因此許多詞條可能沒有后繼詞。而且,作為招聘人員的用戶,其搜索規律不符合“同一用戶搜索詞都是相關的”這一前提條件,這類用戶的搜索內容通常毫不相干,此時使用后繼詞失效。此外,熱門詞如“java”、“產品經理”等詞匯常常成為其他詞的后繼詞,這對冷門相關詞匯不利,但對熱門詞施加懲罰又需要手工調整權重,增大了項目的難度,且實際項目中發現難以控制。
發明內容
為此,本發明提供一種基于相關性的搜索詞處理的技術方案,以力圖解決或者至少緩解上面存在的問題。
根據本發明的一個方面,提供一種基于相關性的搜索詞處理方法,適于在計算設備中執行,該方法包括如下步驟:獲取多個用戶中各用戶的搜索日志,從搜索日志中提取可用搜索詞;對各可用搜索詞進行分詞處理,以獲取其對應的一個或更多個特征詞;將一個或更多個特征詞分別進行轉換以生成對應的關鍵詞,并組合一個或更多個對應的關鍵詞,以形成與可用搜索詞對應的關鍵詞序列;從各關鍵詞序列所對應的可用搜索詞中,選擇出現頻次最高的可用搜索詞作為該關鍵詞序列的特定搜索詞;將各關鍵詞序列分別輸入到相關性計算模型中進行訓練,按照相關性從大到小的順序輸出與輸入的關鍵詞序列相關的第一數量個關鍵詞序列;將第一數量個輸出的關鍵詞序列均替換為其對應的特定搜索詞,從而形成關鍵詞序列與第一數量個特定搜索詞之間的對應關系。
可選地,在根據本發明的基于相關性的搜索詞處理方法中,從搜索日志中提取可用搜索詞的步驟包括:從搜索日志中獲取原始搜索詞并統計其數量;若數量大于第一數值,則將數量對應的用戶的原始搜索詞直接刪除;統計所有未刪除的各原始搜索詞的搜索次數;過濾掉搜索次數小于第二數值的原始搜索詞,將剩余的原始搜索詞作為可用搜索詞。
可選地,在根據本發明的基于相關性的搜索詞處理方法中,將一個或更多個特征詞分別進行轉換以生成對應的關鍵詞的步驟包括:剔除一個或更多個特征詞中屬于無意義詞或敏感詞的特征詞;將剔除后剩余的特征詞進行同義詞轉化,以生成對應的關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京拉勾科技有限公司,未經北京拉勾科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710515009.X/2.html,轉載請聲明來源鉆瓜專利網。





