[發明專利]一種基于生成式對抗網絡的搜索結果多樣化方法有效
| 申請號: | 202011024084.4 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112182155B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 竇志成;劉炯楠 | 申請(專利權)人: | 中國人民大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/9538;G06F18/214;G06N3/0442;G06N3/049 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100872 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 生成 對抗 網絡 搜索 結果 多樣化 方法 | ||
1.一種基于生成式對抗網絡的搜索結果多樣化方法,其特征在于:在訓練過程中,當給出訓練庫中一個查詢詞后,定義對應的候選文檔集合,通過邏輯路徑依次設置的采樣器、生成器和判定器單元,并通過在所述判定器設置判定器的多樣化評分函數,在所述生成器中設置生成器的多樣化評分函數的手段,通過正反饋過程進行訓練;并且,所述多樣化評分函數中引入生成式對抗網絡,同時通過生成式對抗網絡將顯式模型和隱式模型結合,最終在使用過程中,當用戶提出查詢詞后,最后所述生成器進行搜索結果多樣化重排并返回多樣化的搜索結果,最終得到搜索結果;
具體地,對于訓練中的查詢詞q,確定其子話題{i1,i2,…,ik},其所述對應的候選文檔集合為D={d1,d2,…,dk},所述采樣器首先從文檔集合D中選取文檔,進行重排,重排后得到的序列S作為前綴數據輸入到所述生成器中,所述生成器以S作為已選文檔集合,按照多樣化評分函數選取出的得分最高的幾個文檔集合D′作為負例樣本給到所述判定器,正例樣本是以最大化多樣化評分標準選出的文檔d,所述判定器在接收到負例文檔集合D′和正例文檔d之后,對其進行分類并給予生成器反饋;
這一過程公式化描述為:
G為生成器,D為判定器,θ為生成器參數,φ為判定器參數,Dφ由一個sigmod函數給出,生成樣本分布pθ有softmax函數給出;
其中fφ為判定器中多樣化評分函數,fθ為生成器中多樣化評分函數,則優化生成器和判定器的公式為:
log(1+exp(fφ(d|q,S))為判定器給生成器的反饋。
2.如權利要求1所述的一種基于生成式對抗網絡的搜索結果多樣化方法,其特征在于:所述判定器的多樣化評分函數的實現方式具體為:定義由所述生成器發送的打分文檔為dt,查詢為q,子話題分別為Iq={i1,i2,…,iK},已選文檔序列為S={d1,d2,…dt-1},使用傳統檢索模型檢索查詢詞和子話題,選取排序靠前的文檔鏈接成一個偽文檔,然后通過doc2vec模型對文檔、查詢對應的偽文檔,子話題對應的偽文檔做嵌入,產生對所述打分文檔嵌入后的向量ed,對所述查詢嵌入后的向量eq,對所述子話題嵌入后的向量ei,并進一步建模所述打分文檔和所述查詢的相關性向量xd,q,所述打分文檔和所述子話題直接的相關性向量xd,i,特征提取之后,得到所述判定器的多樣化評分函數:
目前已選所述打分文檔下的所述子話題分布情況A(i|S)的計算過程為:首先利用遞歸神經網絡對已選的所述打分文檔進行一個綜合:
LSTM為長短期記憶網絡的神經元函數,經過一層遞歸神經網絡之后,得到已選文檔的分布式表示ht-1,這其中包含了過往文檔的全部信息,則計算所述子話題分布的方法為:
對進一步考慮所述打分文檔與所述子話題之間的相關信息:
則最終得到完整的所述判定器的多樣化評分函數計算方法。
3.如權利要求2所述的一種基于生成式對抗網絡的搜索結果多樣化方法,其特征在于:所述傳統檢索模型為BM25模型,所述特征提取的特征包括TF-IDF模型、BM25模型、LMIR模型、PageRank得分、網頁入度和網頁出度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民大學,未經中國人民大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011024084.4/1.html,轉載請聲明來源鉆瓜專利網。





