[發(fā)明專利]基于查詢的分類器訓(xùn)練方法和裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710609365.8 | 申請(qǐng)日: | 2017-07-24 |
| 公開(公告)號(hào): | CN110020096B | 公開(公告)日: | 2021-09-07 |
| 發(fā)明(設(shè)計(jì))人: | 馬慶麗 | 申請(qǐng)(專利權(quán))人: | 北京國(guó)雙科技有限公司 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/9536;G06K9/62;G06Q50/00 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 趙囡囡;褚敏 |
| 地址: | 100083 北京市海淀區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 查詢 分類 訓(xùn)練 方法 裝置 | ||
本發(fā)明公開了一種基于查詢的分類器訓(xùn)練方法和裝置。其中,該方法包括:使用查詢訓(xùn)練集訓(xùn)練得到權(quán)重模型以及使用查詢訓(xùn)練集的每個(gè)訓(xùn)練樣本分別訓(xùn)練得到排序模型,其中,查詢訓(xùn)練集包括多個(gè)查詢,訓(xùn)練樣本包括至少兩個(gè)查詢;確定權(quán)重模型的第一宏平均準(zhǔn)確率以及每個(gè)排序模型的第二宏平均準(zhǔn)確率;根據(jù)第一宏平均準(zhǔn)確率和第二宏平均準(zhǔn)確率確定分類器的增益;根據(jù)增益確定分類器。本發(fā)明解決了現(xiàn)有技術(shù)中針對(duì)單個(gè)查詢進(jìn)行分類器訓(xùn)練時(shí)產(chǎn)生冗余的技術(shù)問題。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種基于查詢的分類器訓(xùn)練方法和裝置。
背景技術(shù)
隨著在線社交網(wǎng)絡(luò)的迅猛發(fā)展,社交網(wǎng)絡(luò)現(xiàn)已成為人們?nèi)粘I钪行畔⒌闹匾獊碓矗瑖?guó)外最具代表性的Twitter以及國(guó)內(nèi)最具代表性的新浪微博,都吸引了全球數(shù)以億計(jì)的網(wǎng)絡(luò)用戶。以微博為例,每時(shí)每刻每分每秒都有大量的消息在微博上產(chǎn)生,甚至已成為最快速最全面的新聞來源之一。然而每天鋪天蓋地的消息更新也讓用戶難以快速瀏覽到自己真正需要的有效信息—既要與用戶輸入查詢具有高度相關(guān)性同時(shí)又保證微博的時(shí)效性。因此如何快速有效的返回用戶請(qǐng)求,即微博檢索成為一項(xiàng)重要的研究問題。
微博檢索就是用戶輸入一個(gè)查詢,系統(tǒng)需要從語料集中檢索出相關(guān)的微博并按照相關(guān)度進(jìn)行評(píng)分排序,以滿足用戶的信息需求。如今,微博檢索成為信息檢索(InformationRetrieval)的一個(gè)重要分支。
在進(jìn)行微博檢索時(shí),傳統(tǒng)的單一檢索排序模型很難融合多種信息,比如向量空間模型以tf*idf作為權(quán)重構(gòu)建相關(guān)度函數(shù),那么其他信息就難以被包含使用,并且有的模型中參數(shù)比較多,調(diào)參相對(duì)比較困難,也可能出現(xiàn)過擬合現(xiàn)象。因此,這一系列的單一檢索模型已不能滿足現(xiàn)代信息檢索的需求,突破單一檢索模型,引入機(jī)器學(xué)習(xí)算法成為必然趨勢(shì)。排序?qū)W習(xí)算法可以方便有效的利用一系列的特征建立排序模型,取代了傳統(tǒng)檢索模型的單一,因此被廣泛應(yīng)用于微博檢索任務(wù)中。但排序?qū)W習(xí)算法(Learning to Rank,LTR)對(duì)數(shù)據(jù)質(zhì)量具有很大的依賴性,若訓(xùn)練數(shù)據(jù)中存在大量的低質(zhì)量數(shù)據(jù),會(huì)嚴(yán)重影響排序?qū)W習(xí)算法的排序性能,因此從參差不齊的訓(xùn)練數(shù)據(jù)中選擇高質(zhì)量的數(shù)據(jù)成為提高檢索性能的一個(gè)重要部分。
對(duì)于訓(xùn)練查詢的選擇,現(xiàn)有技術(shù)中已經(jīng)有一種基于檢索性能增益以特征向量集導(dǎo)向的訓(xùn)練查詢選擇算法,該算法核心為:訓(xùn)練一個(gè)基于檢索性能增益(針對(duì)單個(gè)查詢)與查詢特征集之間的線性關(guān)系函數(shù),即查詢選擇分類器(采用logistic回歸)。利用在訓(xùn)練階段得到的查詢選擇分類器選擇訓(xùn)練查詢集,選擇出的高質(zhì)量查詢作為新的訓(xùn)練數(shù)據(jù),訓(xùn)練LTR模型。
盡管該基于檢索性能增益以特征向量集導(dǎo)向的訓(xùn)練查詢選擇算法使得排序?qū)W習(xí)性能得到很大的提升,但依然存在以下兩個(gè)問題:一是由于該算法沒有考慮到查詢之間的依賴性以及重復(fù)性,將查詢看成一個(gè)個(gè)獨(dú)立互不影響的個(gè)體,因此選擇的查詢可能存在冗余問題;二是利用單個(gè)獨(dú)立的查詢作為訓(xùn)練數(shù)據(jù)不利于Listwise算法的訓(xùn)練,因此該算法只適用于Pairwise算法。
針對(duì)上述現(xiàn)有技術(shù)中針對(duì)單個(gè)查詢進(jìn)行分類器訓(xùn)練時(shí)產(chǎn)生冗余的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種基于查詢的分類器訓(xùn)練方法和裝置,以至少解決現(xiàn)有技術(shù)中針對(duì)單個(gè)查詢進(jìn)行分類器訓(xùn)練時(shí)產(chǎn)生冗余的技術(shù)問題。
根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種基于查詢的分類器訓(xùn)練方法,包括:使用查詢訓(xùn)練集訓(xùn)練得到權(quán)重模型以及使用查詢訓(xùn)練集的每個(gè)訓(xùn)練樣本分別訓(xùn)練得到排序模型,其中,查詢訓(xùn)練集包括多個(gè)查詢,訓(xùn)練樣本包括至少兩個(gè)查詢;確定權(quán)重模型的第一宏平均準(zhǔn)確率以及每個(gè)排序模型的第二宏平均準(zhǔn)確率;根據(jù)第一宏平均準(zhǔn)確率和第二宏平均準(zhǔn)確率確定分類器的增益;根據(jù)增益確定分類器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京國(guó)雙科技有限公司,未經(jīng)北京國(guó)雙科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710609365.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 帶有前處理和后處理的數(shù)據(jù)庫(kù)復(fù)合查詢系統(tǒng)及方法
- 數(shù)據(jù)庫(kù)查詢的方法和系統(tǒng)
- 查詢系統(tǒng)、查詢終端以及查詢方法
- 交易信息查詢方法、查詢裝置及查詢系統(tǒng)
- 數(shù)據(jù)查詢與結(jié)果生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 在RDF數(shù)據(jù)集上進(jìn)行OPTIONAL查詢的方法及存儲(chǔ)介質(zhì)
- 一種多表關(guān)聯(lián)查詢方法、裝置及設(shè)備
- 一種基于Impala的查詢方法和裝置
- 從查詢生成子查詢
- 一種基于通用查詢語言的查詢方法及查詢系統(tǒng)





