[發(fā)明專利]一種基于文本點擊率的搜索結(jié)果推薦方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011386336.8 | 申請日: | 2020-12-02 |
| 公開(公告)號: | CN112487274B | 公開(公告)日: | 2023-02-07 |
| 發(fā)明(設計)人: | 高萌;王進;胡峰;楊小姜;華尹;彭浩 | 申請(專利權(quán))人: | 重慶郵電大學 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F16/9535;G06F16/33;G06F16/335;G06F16/35;G06N3/0464;G06N3/08 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 點擊率 搜索 結(jié)果 推薦 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于文本點擊率的搜索結(jié)果推薦方法及系統(tǒng),屬于機器學習、和自然語言處理領域,所述方法包括:對搜索文本query和title進行預處理操作;對文本query和title構(gòu)建特征工程;利用改進DRCN構(gòu)建的RRSCN深度匹配模型進行特征提取;利用RRSCN深度匹配模型構(gòu)建預訓練模型;根據(jù)特征工程和RRSCN深度匹配模型構(gòu)建三輸入的全連接層網(wǎng)絡;本發(fā)明根據(jù)文本query和title預測query下文本點擊率,通過構(gòu)建特征工程,特征選擇工作,構(gòu)建三輸入深度學習文本匹配模型,從而可以更精確的預測文本預估點擊率和相關性,準確的給用戶推薦最有可能點擊的搜索結(jié)果,提高用戶的體驗性。
技術(shù)領域
本發(fā)明屬于機器學習、深度學習、自然語言處理技術(shù)領域,具體涉及一種基于文本點擊率的搜索結(jié)果推薦方法及系統(tǒng)。
背景技術(shù)
互聯(lián)網(wǎng)的迅速發(fā)展帶來了海量的信息數(shù)據(jù),但是用戶在海量數(shù)據(jù)中搜索自己想要的信息時無法準確快速的鎖定自己想要獲得的信息,使得用戶對搜索數(shù)據(jù)信息的體驗較差,而文本預估點擊率和相關性匹配方法可以很好的解決這一問題。為了增強用戶的搜索體驗,使得用戶可以快速準確的搜索到自己想要關注了解的信息,利用大量的歷史搜索數(shù)據(jù),通過分析不同用戶的點擊行為日志,給用戶展示最可能被點擊的文章標題,增強用戶的體驗,提高文章信息的點擊率和轉(zhuǎn)換率。
發(fā)明內(nèi)容
針對上述現(xiàn)有技術(shù)的不足,本發(fā)明提出了一種基于文本點擊率的搜索結(jié)果推薦方法及系統(tǒng),通過改進的深度匹配模型利用預訓練思想以及結(jié)合一些手工特征去獲取搜索內(nèi)容query和搜索結(jié)果title之間的關聯(lián),旨在準確有效地把用戶最想要關注的文章展示給用戶,可以提高文章信息產(chǎn)品的點擊率,同時具有一定的實現(xiàn)意義。
根據(jù)本發(fā)明的一個方面,提供一種基于文本點擊率的搜索結(jié)果推薦方法,所述方法包括:
步驟110,對搜索內(nèi)容query和搜索結(jié)果title進行預處理操作;
步驟120,對query和title構(gòu)建特征工程;所述特征工程包括:詞粒度的統(tǒng)計特征,文本語義特征,相似度特征,歷史信息特征;
步驟130,利用改進的深度緊密遞歸交互注意力機制的網(wǎng)絡DRCN構(gòu)建基于殘差遞歸自注意力和交互注意力機制的網(wǎng)絡RRSCN的深度匹配模型,來進行特征提取;
步驟140,根據(jù)步驟130得到的RRSCN深度匹配模型,通過流式讀取方法訓練全量數(shù)據(jù)加上微調(diào)遷移學習的方式獲取RRSCN的預訓練模型;
步驟150,根據(jù)特征工程和RRSCN深度匹配模型構(gòu)建三輸入的全連接層網(wǎng)絡;
步驟160,利用構(gòu)建的全連接層網(wǎng)絡預測文本預估點擊率和相關性,給用戶推薦最優(yōu)可能點擊的搜索結(jié)果。
根據(jù)本發(fā)明的另一個方面,提供一種基于文本點擊率的搜索結(jié)果推薦系統(tǒng),包括用于存儲海量可搜索標題title的文本服務器,以及用于用戶輸入搜索問題query和顯示最優(yōu)搜索結(jié)果的用戶搜索界面,所述系統(tǒng)還包括以下模塊:
文本預處理模塊S110,用于分別從用戶搜索界面和文本服務器獲取搜索問題query和搜索標題title,對搜索問題query和搜索標題title進行預處理操作;
特征工程構(gòu)建模塊S120,用于對query和title構(gòu)建特征工程;所述特征工程包括:詞粒度的統(tǒng)計特征,文本語義特征,相似度特征,歷史信息特征;
特征提取模塊S130,用于利用改進的深度緊密遞歸交互注意力機制的網(wǎng)絡DRCN構(gòu)建基于殘差遞歸自注意力和交互注意力機制的網(wǎng)絡RRSCN的深度匹配模型,來進行特征提取;
預訓練模型構(gòu)建模塊S140,用于根據(jù)特征提取模塊S130得到的RRSCN深度匹配模型,通過流式讀取方法訓練全量數(shù)據(jù)加上微調(diào)遷移學習的方式獲取RRSCN的預訓練模型;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學,未經(jīng)重慶郵電大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011386336.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





