[發(fā)明專利]一種基于文本點(diǎn)擊率的搜索結(jié)果推薦方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202011386336.8 | 申請日: | 2020-12-02 |
| 公開(公告)號(hào): | CN112487274B | 公開(公告)日: | 2023-02-07 |
| 發(fā)明(設(shè)計(jì))人: | 高萌;王進(jìn);胡峰;楊小姜;華尹;彭浩 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G06F16/9532 | 分類號(hào): | G06F16/9532;G06F16/9535;G06F16/33;G06F16/335;G06F16/35;G06N3/0464;G06N3/08 |
| 代理公司: | 重慶輝騰律師事務(wù)所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文本 點(diǎn)擊率 搜索 結(jié)果 推薦 方法 系統(tǒng) | ||
1.一種基于文本點(diǎn)擊率的搜索結(jié)果推薦方法,其特征在于,包括以下步驟:
步驟110,對搜索內(nèi)容query和搜索結(jié)果title進(jìn)行預(yù)處理操作;
步驟120,對query和title構(gòu)建特征工程;所述特征工程包括:詞粒度的統(tǒng)計(jì)特征,文本語義特征,相似度特征,歷史信息特征;
步驟130,利用改進(jìn)的深度緊密遞歸交互注意力機(jī)制的網(wǎng)絡(luò)DRCN構(gòu)建基于殘差遞歸自注意力和交互注意力機(jī)制的網(wǎng)絡(luò)RRSCN的深度匹配模型,來進(jìn)行特征提??;
步驟140,根據(jù)步驟130得到的RRSCN深度匹配模型,通過流式讀取方法訓(xùn)練全量數(shù)據(jù)加上微調(diào)遷移學(xué)習(xí)的方式獲取RRSCN的預(yù)訓(xùn)練模型;
步驟150,根據(jù)特征工程和RRSCN深度匹配模型構(gòu)建三輸入的全連接層網(wǎng)絡(luò);
步驟160,利用構(gòu)建的全連接層網(wǎng)絡(luò)預(yù)測文本預(yù)估點(diǎn)擊率和相關(guān)性,給用戶推薦最有可能點(diǎn)擊的搜索結(jié)果;
其中,所述步驟120具體包括:
步驟121,計(jì)算詞粒度的統(tǒng)計(jì)特征,用于描述搜索問題query和搜索標(biāo)題title之間基于詞的匹配信息,包含特征有:query或title長度、query長度-title長度、query是否完全包含title、query和title的公共詞個(gè)數(shù)、query和title的公共詞個(gè)數(shù)與query和title長度的占比、title出現(xiàn)的頻次、query和title的最長連續(xù)公共子序列長度;
步驟122,計(jì)算文本語義特征,用于描述query和title之間語義上的聯(lián)系,包含特征有:N-gram特征,query中第一、第二和第三個(gè)詞語中的任兩個(gè)是否相同,query中第一、第二和第三個(gè)詞語在title中出現(xiàn)的位置,query首詞或末詞在title中的順序以及出現(xiàn)位置;
獲取query和title的共現(xiàn)語句s,計(jì)算與query和title語句的占比,得共現(xiàn)率特征:
其中l(wèi)en表示獲取語句的長度;
步驟123,計(jì)算相似度特征,用于衡量query和title相似程度,包括:
步驟123a,通過詞向量word2vec和快速文本分類器fasttext將文本進(jìn)行詞向量編碼,通過以下公式給每個(gè)詞賦予一個(gè)權(quán)重評價(jià)w:
其中m為文檔總數(shù),wi,j為詞語i在第j篇文檔中出現(xiàn)的次數(shù),aj為第j篇文檔詞語的個(gè)數(shù),itf表示為加強(qiáng)過后的tf,iidf表示加強(qiáng)過后的idf,itf和iidf為TFC算法,α為根據(jù)正負(fù)類別頻率的平衡系數(shù),ni為包含詞語i的所有文檔數(shù),p(i1)為單詞i在正例類別中的頻率,p(i0)為單詞i在反例類別中的頻率;
步驟123b,利用權(quán)重值對query和title中的每個(gè)詞進(jìn)行加權(quán)求和得到query和title的句向量表示:
其中m是文中詞語個(gè)數(shù),vi為第i個(gè)詞的詞向量,sentence vec為計(jì)算得到的句向量;
步驟123c,對得到query和title的句向量進(jìn)行余弦相似度、萊文斯坦levenshtein相似度、曼哈頓距離計(jì)算,把計(jì)算結(jié)果作為相似度特征;
步驟124,計(jì)算歷史信息特征,用于根據(jù)歷史數(shù)據(jù)去刻畫title信息,包括:
步驟124a,根據(jù)步驟110得到的query和title的關(guān)鍵詞提取query歷史點(diǎn)擊率、title歷史點(diǎn)擊率作為特征;
對于冷啟動(dòng)文本,即測試集中未在訓(xùn)練集中出現(xiàn)的樣本,統(tǒng)計(jì)訓(xùn)練集title出現(xiàn)的次數(shù)count和點(diǎn)擊次數(shù)click,click為0的填充為1,測試集中未出現(xiàn)的title的點(diǎn)擊率設(shè)置為0.2;
步驟124b,計(jì)算title質(zhì)量分?jǐn)?shù)特征,一個(gè)query中用戶點(diǎn)擊的title和另一個(gè)query中用戶點(diǎn)擊的title,這兩個(gè)title對于query的重要程度根據(jù)以下公式:
其中qt表示包含title的query,labelq表示該query的標(biāo)簽值,1為對當(dāng)前query下的該title有點(diǎn)擊,0為未點(diǎn)擊,ctrq為該query的一個(gè)整體點(diǎn)擊率,Scoretitle為一個(gè)title的最終得分,即是包含該title的所有query下該title的得分總和;
根據(jù)公式得到title對于不同query下的一個(gè)得分,然后title的最終得分是包含該title的所有query下該title得分的總和。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011386336.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種信息展示方法和裝置
- 媒體廣告點(diǎn)擊率的優(yōu)化方法、裝置及媒體廣告系統(tǒng)
- 點(diǎn)擊率校正方法、預(yù)估方法、裝置、計(jì)算設(shè)備及存儲(chǔ)介質(zhì)
- 點(diǎn)擊率預(yù)估方法、裝置、計(jì)算設(shè)備及存儲(chǔ)介質(zhì)
- 點(diǎn)擊率預(yù)估方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種視頻推薦方法及裝置
- 推廣信息展示方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 廣告點(diǎn)擊率數(shù)據(jù)的處理方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 點(diǎn)擊率預(yù)測模型的訓(xùn)練方法、推薦方法、裝置及電子設(shè)備
- 一種消息推送方法、裝置、電子設(shè)備及介質(zhì)





