[發(fā)明專利]一種文檔排序方法、裝置、電子設(shè)備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110601081.0 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113032549B | 公開(公告)日: | 2021-09-10 |
| 發(fā)明(設(shè)計(jì))人: | 曹夢娣;曹雷;尤旸 | 申請(專利權(quán))人: | 北京明略昭輝科技有限公司 |
| 主分類號: | G06F16/338 | 分類號: | G06F16/338;G06F16/38;G06N20/00 |
| 代理公司: | 北京超成律師事務(wù)所 11646 | 代理人: | 裴素英 |
| 地址: | 100082 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 排序 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
1.一種文檔排序方法,其特征在于,所述文檔排序方法包括:
獲取查詢用戶的查詢文本和用戶信息;
基于所述查詢文本中的至少一個(gè)查詢關(guān)鍵字,獲取與所述查詢文本相匹配的多個(gè)候選文檔;
分別從所述用戶信息、所述查詢文本以及所述多個(gè)候選文檔中,提取出所述查詢用戶的關(guān)聯(lián)特征、所述查詢文本的關(guān)聯(lián)特征、每個(gè)候選文檔的關(guān)聯(lián)特征;
基于所述查詢用戶的關(guān)聯(lián)特征、所述查詢文本的關(guān)聯(lián)特征以及所述每個(gè)候選文檔的關(guān)聯(lián)特征,確定所述查詢用戶、所述查詢文本以及所述每個(gè)候選文檔之間的交叉類別特征;
將所述查詢用戶的關(guān)聯(lián)特征、所述查詢文本的關(guān)聯(lián)特征、所述每個(gè)候選文檔的關(guān)聯(lián)特征以及所述交叉類別特征輸入至預(yù)先訓(xùn)練好的文檔相關(guān)度模型中,確定每個(gè)候選文檔的相關(guān)度得分;
按照確定出的多個(gè)相關(guān)度得分,確定所述多個(gè)候選文檔的排序結(jié)果,將所述排序結(jié)果以及所述多個(gè)候選文檔發(fā)送至所述查詢用戶所使用的客戶端,以使所述客戶端按照所述排序結(jié)果顯示所述多個(gè)候選文檔;
通過以下步驟構(gòu)建文檔相關(guān)度模型:
獲取歷史埋點(diǎn)日志;
從所述歷史埋點(diǎn)日志中提取出每個(gè)樣本用戶以及每個(gè)樣本用戶的第一行為信息、每個(gè)歷史查詢文本以及每個(gè)歷史查詢文本的第二行為信息、每個(gè)樣本文檔以及每個(gè)樣本文檔的第三行為信息;
基于從所述歷史埋點(diǎn)日志中提取出的每個(gè)樣本用戶、每個(gè)歷史查詢文本以及每個(gè)樣本文檔,獲取每個(gè)樣本用戶的基本屬性信息、每個(gè)歷史查詢文本的基本屬性信息、以及每個(gè)樣本文檔的基本屬性信息;
基于每個(gè)第一行為信息、每個(gè)第二行為信息、每個(gè)第三行為信息、每個(gè)樣本用戶的基本屬性信息、每個(gè)歷史查詢文本的基本屬性信息、以及每個(gè)樣本文檔的基本屬性信息,確定所述樣本用戶的關(guān)聯(lián)特征、所述歷史查詢文本的關(guān)聯(lián)特征、所述樣本文檔的關(guān)聯(lián)特征以及所述樣本用戶與所述歷史查詢文本與所述樣本文檔之間的交叉類別特征;
獲取每個(gè)樣本文檔的相關(guān)度標(biāo)簽;
將所述樣本用戶的關(guān)聯(lián)特征、所述歷史查詢文本的關(guān)聯(lián)特征、所述樣本文檔的關(guān)聯(lián)特征以及所述交叉類別特征作為輸入,將每個(gè)樣本文檔的相關(guān)度標(biāo)簽作為輸出,訓(xùn)練機(jī)器學(xué)習(xí)模型,當(dāng)達(dá)到第一預(yù)定模型訓(xùn)練結(jié)束條件時(shí),確定每個(gè)特征的重要度;所述樣本用戶的關(guān)聯(lián)特征包括靜態(tài)類特征和行為類特征,所述歷史查詢文本的關(guān)聯(lián)特征包括靜態(tài)類特征和被行為類特征,所述樣本文檔的關(guān)聯(lián)特征包括靜態(tài)類特征、被行為類特征以及點(diǎn)擊特征;其中,使用所述樣本用戶的關(guān)聯(lián)特征、所述歷史查詢文本的關(guān)聯(lián)特征、所述樣本文檔的關(guān)聯(lián)特征以及交叉類別特征進(jìn)行模型訓(xùn)練前,對所述樣本用戶的關(guān)聯(lián)特征、所述歷史查詢文本的關(guān)聯(lián)特征、所述樣本文檔的關(guān)聯(lián)特征中的行為類特征和被行為類特征中的全部行為特征,采取時(shí)間衰減的方式進(jìn)行處理;基于確定出的多個(gè)重要度,從所述樣本用戶的關(guān)聯(lián)特征、所述歷史查詢文本的關(guān)聯(lián)特征、所述樣本文檔的關(guān)聯(lián)特征以及所述交叉類別特征中篩選出多個(gè)目標(biāo)樣本特征;
將所述多個(gè)目標(biāo)樣本特征作為輸入,將每個(gè)樣本文檔的相關(guān)度標(biāo)簽作為輸出,重新訓(xùn)練所述機(jī)器學(xué)習(xí)模型,當(dāng)達(dá)到第二預(yù)定模型訓(xùn)練結(jié)束條件時(shí),得到訓(xùn)練好的所述文檔相關(guān)度模型。
2.根據(jù)權(quán)利要求1所述的文檔排序方法,其特征在于,所述交叉類別特征包括所述查詢用戶與所述查詢文本的交叉特征、所述查詢用戶與所述候選文檔的交叉特征、所述查詢文本與所述候選文檔的交叉特征、所述查詢用戶與所述查詢文本與所述候選文檔三者的交叉特征中的至少一種。
3.根據(jù)權(quán)利要求1所述的文檔排序方法,其特征在于,所述分別從所述用戶信息、所述查詢文本以及所述多個(gè)候選文檔中,提取出所述查詢用戶的關(guān)聯(lián)特征、所述查詢文本的關(guān)聯(lián)特征、每個(gè)候選文檔的關(guān)聯(lián)特征,包括:
分別從所述用戶信息、所述查詢文本以及所述多個(gè)候選文檔中,提取出所述查詢用戶的初始關(guān)聯(lián)特征、所述查詢文本的初始關(guān)聯(lián)特征、每個(gè)候選文檔的初始關(guān)聯(lián)特征;
分別對所述查詢用戶的初始關(guān)聯(lián)特征、所述查詢文本的初始關(guān)聯(lián)特征、每個(gè)候選文檔的初始關(guān)聯(lián)特征進(jìn)行時(shí)間衰減處理,得到所述查詢用戶的關(guān)聯(lián)特征、所述查詢文本的關(guān)聯(lián)特征、每個(gè)候選文檔的關(guān)聯(lián)特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京明略昭輝科技有限公司,未經(jīng)北京明略昭輝科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110601081.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





