[發(fā)明專利]一種基于上下文表示學習的性化搜索方法有效
| 申請?zhí)枺?/td> | 202011021934.5 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112182373B | 公開(公告)日: | 2023-06-02 |
| 發(fā)明(設計)人: | 竇志成;周雨佳 | 申請(專利權)人: | 中國人民大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9538;G06F40/205;G06F40/30;G06F18/214 |
| 代理公司: | 北京中創(chuàng)陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100872 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 上下文 表示 學習 搜索 方法 | ||
本發(fā)明通過人工智能領域的方法,實現(xiàn)了一種基于上下文表示學習的性化搜索方法,將用戶歷史編碼為語境信息來強化查詢表示。我們分別設計了查詢消歧和意圖預測兩個部分來對推斷用戶的信息需求,他們運用層次化transformer來編碼語境信息,查詢消歧將查詢語境的輸入劃分為查詢單詞、短期歷史和長期歷史三個層面,并分別進行消歧操作。兩個部分的輸出通過門控單元融合,我們設計了兩種損失函數(shù)來優(yōu)化整個模型;之后對所述查詢消岐模型的分析結果和所述已有查詢日志預測結果進行融合和重排運算,并對結果進行優(yōu)化。通過上述手段,在不建立用戶模型的基礎上對用戶歷史進行編碼,理解用戶基于當前查詢的真實需求和真實意圖。
技術領域
本發(fā)明涉及人工智能領域,尤其涉及一種基于上下文表示學習的性化搜索方法。
背景技術
個性化搜索是各大搜索引擎的主要目標之一,現(xiàn)在主流的個性化算法是基于文本分析的方法,即建立用戶興趣模型,而后比較用戶興趣與候選文檔的相似度來對結果進行重排。建立用戶模型的主要依據是用戶的歷史點擊行為,從而刻畫出用戶的興趣特征,以此來完成個性化文檔排序。個性化搜索的主要目標是根據用戶興趣不同,為不同用戶返回滿足其需要的個性化的排序列表。現(xiàn)有技術的基本思想是,首先利用用戶歷史對用戶興趣進行建模,進而在文檔排序時,同時考慮文檔和查詢的相關性以及文檔和用戶興趣的相似度。用戶提出一個查詢,搜索引擎會對候選文檔進行打分,通過一定的方法對查詢詞和用戶興趣這兩方面的因素進行融合獲得最終得分。個性化搜索算法中,用戶興趣的表示和建模方法多種多樣,但其主要思路都是基于用戶歷史搜索行為(包括用戶提出的查詢、查詢上點擊的行為、駐留時間等)來進行用戶興趣模型和個性化排序。例如,現(xiàn)有技術包括基于用戶對文檔的歷史點擊次數(shù)和點擊文檔的主題分布來進行個性化排序的方法。如果用戶在查詢某個查詢時經常點擊某個文檔,則下一次用戶再次查詢該文檔時,這個文檔的排序位置將被提前。現(xiàn)有技術還利用了用戶查詢歷史、頁面瀏覽歷史、點擊駐留時間等多個因素對用戶興趣進行了更為細致的建模,在對結果的個性化重排上取得了很好的效果。還有一些技術通過提取用戶查詢和點擊頁面的主題來刻畫用戶興趣特征,進而來評估文檔與用戶興趣的相似性。深度學習的出現(xiàn),使得模型對用戶查詢的語義理解能力得到提升,現(xiàn)有技術使用循環(huán)神經網絡、對抗生成網絡等來建立用戶興趣模型。
在先研究揭示了用戶提出的大部分查詢都很短并且具有歧義,因此捕捉用戶真實查詢意圖是個性化搜索中非常重要的一個步驟,尤其是面對有歧義的查詢時,大部分現(xiàn)有的方法的重點都放在如何根據用戶歷史建立用戶興趣模型上。但是我們認為這種思路并沒有從本質上對查詢詞進行消歧,只是通過歷史行為總結出了用戶的興趣。對于這種思路,在歧義詞場景下構建出的用戶興趣模型也是具有偏差的。所以,我們希望放棄建立用戶興趣模型,而是通過更加直接的方法,利用用戶歷史,對當前查詢進行消歧,我們認為,在特定的用戶歷史下,當前查詢詞的意圖是明確的。
發(fā)明內容
為此,本發(fā)明提出了一種基于上下文表示學習的性化搜索方法,讀取用戶輸入的查詢內容,將查詢語境的輸入劃分為查詢單詞、短期歷史和長期歷史三個層面,并依據所述三個層面,設置一個長期transformer模型和一個短期transfo?rmer模型建立查詢消歧模型,具體地,對所述查詢語境的劃分方法為:所述查詢單詞層面為本次輸入的查詢單詞;所述短期歷史和長期歷史根據這一用戶的歷史數(shù)據劃分,所述歷史數(shù)據集合H包含短期歷史集合Hs和長期歷史集合Hl,所述短期歷史集合Hs包含當前會話中的一系列查詢和候選文檔,所述候選文檔為一個查詢下搜索引擎返回的文檔集合,每一個查詢對應一個候選文檔列表,t代表當前時間戳,t-1表示剛剛結束的查詢和候選文檔集合,所述長期歷史集合Hl包括之前會話中的交互行為,所述交互行為包括提交查詢和點擊瀏覽行為,n是所述之前會話中的查詢數(shù)量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民大學,未經中國人民大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011021934.5/2.html,轉載請聲明來源鉆瓜專利網。





