[發(fā)明專利]一種數(shù)據(jù)處理方法、裝置、服務(wù)器及計算機(jī)可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010960113.1 | 申請日: | 2020-09-14 |
| 公開(公告)號: | CN112084307A | 公開(公告)日: | 2020-12-15 |
| 發(fā)明(設(shè)計)人: | 鄭胤;魏秉政;黃漢煜;黃彥;王骕;路彥雄;林樂宇;王志平 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/284;G06F40/30 |
| 代理公司: | 廣州三環(huán)專利商標(biāo)代理有限公司 44202 | 代理人: | 熊永強(qiáng);杜維 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù)處理 方法 裝置 服務(wù)器 計算機(jī) 可讀 存儲 介質(zhì) | ||
本發(fā)明實施例提供了一種數(shù)據(jù)處理方法、裝置、服務(wù)器及計算機(jī)可讀存儲介質(zhì),其中方法包括:獲取訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集包括第一搜索詞和第一搜索詞對應(yīng)的多個樣本,并獲取多個樣本中每個樣本與第一搜索詞的關(guān)聯(lián)度,關(guān)聯(lián)度用于表示每個樣本與第一搜索詞在語義上的匹配程度,再根據(jù)多個樣本對應(yīng)的關(guān)聯(lián)度之間的差異數(shù)據(jù)對初始模型進(jìn)行訓(xùn)練,以得到訓(xùn)練后的點擊模型,點擊模型用于對輸入的第二搜索詞進(jìn)行識別搜索處理,可以使得點擊模型能夠有效地學(xué)習(xí)到樣本與搜索詞之間關(guān)聯(lián)度的差異,有利于提升利用點擊模型進(jìn)行內(nèi)容搜索時的準(zhǔn)確度。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法、裝置、服務(wù)器及計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
點擊模型是進(jìn)行信息檢索的核心模塊,隨著機(jī)器學(xué)習(xí)技術(shù)在信息檢索領(lǐng)域的廣泛應(yīng)用,點擊模型也取得了很多進(jìn)展。在信息檢索領(lǐng)域中(例如搜索,排序等場景),排序的依據(jù)通常是文檔的點擊分?jǐn)?shù)(例如被用戶點擊的次數(shù)),但主要依據(jù)文檔的點擊分?jǐn)?shù)進(jìn)行排序很可能出現(xiàn)排序不準(zhǔn)確的情況,例如搜索詞:“饅頭夾紅燒肉”,有兩個候選文章分別叫做“紅燒肉夾饅頭”和“紅燒肉白饅頭”,相比較而言,“紅燒肉夾饅頭”更符合用戶的檢索需求,但實際應(yīng)用中可能出現(xiàn)搜索結(jié)果中“紅燒肉白饅頭”這篇文章的排序反而比“紅燒肉夾饅頭”這篇文章還要靠前的情況,可見,由于對點擊模型訓(xùn)練時通常只考慮文檔的點擊分?jǐn)?shù),可能導(dǎo)致搜索結(jié)果不準(zhǔn)確的情況。因此,如何對點擊模型進(jìn)行有效訓(xùn)練,以提升利用點擊模型進(jìn)行內(nèi)容搜索時的準(zhǔn)確度已成為亟待解決的問題。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種數(shù)據(jù)處理方法、裝置、服務(wù)器及計算機(jī)可讀存儲介質(zhì),可以使得點擊模型能夠有效地學(xué)習(xí)到樣本與搜索詞之間關(guān)聯(lián)度的差異,有利于提升利用點擊模型進(jìn)行內(nèi)容搜索時的準(zhǔn)確度。
第一方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理方法,所述方法包括:
獲取訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括第一搜索詞和所述第一搜索詞對應(yīng)的多個樣本。
獲取所述多個樣本中每個樣本與所述第一搜索詞的關(guān)聯(lián)度,所述關(guān)聯(lián)度用于表示所述每個樣本與所述第一搜索詞在語義上的匹配程度。
根據(jù)所述多個樣本對應(yīng)的關(guān)聯(lián)度之間的差異數(shù)據(jù)對初始模型進(jìn)行訓(xùn)練,以得到訓(xùn)練后的點擊模型,所述點擊模型用于對輸入的第二搜索詞進(jìn)行識別搜索處理。
第二方面,本發(fā)明實施例提供了一種數(shù)據(jù)處理裝置,所述裝置包括:
獲取模塊,用于獲取訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括第一搜索詞和所述第一搜索詞對應(yīng)的多個樣本。
所述獲取模塊,還用于獲取所述多個樣本中每個樣本與所述第一搜索詞的關(guān)聯(lián)度,所述關(guān)聯(lián)度用于表示所述每個樣本與所述第一搜索詞在語義上的匹配程度。
處理模塊,用于根據(jù)所述多個樣本對應(yīng)的關(guān)聯(lián)度之間的差異數(shù)據(jù)對初始模型進(jìn)行訓(xùn)練,以得到訓(xùn)練后的點擊模型,所述點擊模型用于對輸入的第二搜索詞進(jìn)行識別搜索處理。
第三方面,本發(fā)明實施例提供了一種服務(wù)器,所述服務(wù)器包括處理器、網(wǎng)絡(luò)接口和存儲裝置,所述處理器、所述網(wǎng)絡(luò)接口和所述存儲裝置相互連接,其中,所述網(wǎng)絡(luò)接口受所述處理器的控制用于收發(fā)數(shù)據(jù),所述存儲裝置用于存儲計算機(jī)程序,所述計算機(jī)程序包括程序指令,所述處理器被配置用于調(diào)用所述程序指令,用于執(zhí)行第一方面所述的數(shù)據(jù)處理方法。
第四方面,本發(fā)明實施例提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)存儲介質(zhì)存儲有計算機(jī)程序,所述計算機(jī)程序包括程序指令,所述程序指令被處理器執(zhí)行,用以執(zhí)行第一方面所述的數(shù)據(jù)處理方法。
第五方面,本發(fā)明實施公開了一種計算機(jī)程序產(chǎn)品或計算機(jī)程序,該計算機(jī)程序產(chǎn)品或計算機(jī)程序包括計算機(jī)指令,該計算機(jī)指令存儲在計算機(jī)可讀存儲介質(zhì)中。計算機(jī)設(shè)備的處理器從計算機(jī)可讀存儲介質(zhì)讀取該計算機(jī)指令,處理器執(zhí)行該計算機(jī)指令,使得該計算機(jī)設(shè)備執(zhí)行上述第一方面所述的數(shù)據(jù)處理方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010960113.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





