[發(fā)明專利]分類方法及裝置在審
| 申請?zhí)枺?/td> | 201410433033.5 | 申請日: | 2014-08-28 |
| 公開(公告)號: | CN105373800A | 公開(公告)日: | 2016-03-02 |
| 發(fā)明(設(shè)計)人: | 程惠閣;毛耀宗 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京鴻德海業(yè)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分類 方法 裝置 | ||
【技術(shù)領(lǐng)域】
本發(fā)明涉及機器學(xué)習(xí)技術(shù),尤其涉及一種分類方法及裝置。
【背景技術(shù)】
在機器學(xué)習(xí)中,可以利用大量已知的訓(xùn)練樣本,構(gòu)建分類模型即分類器,進而利用所構(gòu)建的分類器對未知的數(shù)據(jù)進行預(yù)測。分類器可以應(yīng)用在很多場景,例如,由于因網(wǎng)絡(luò)作弊而產(chǎn)生的垃圾頁面越來越多,嚴重影響了搜索引擎的檢索效率和用戶體驗,因此,反作弊已經(jīng)成為搜索引擎所面臨的最重要的挑戰(zhàn)之一,可以將利用已標注的正常數(shù)據(jù)和作弊數(shù)據(jù),構(gòu)建一個分類器,以對網(wǎng)絡(luò)數(shù)據(jù)進行識別。現(xiàn)有技術(shù)中,可以利用所構(gòu)建的一個分類器,對數(shù)據(jù)進行預(yù)測,以獲得分類結(jié)果。
然而,采用單一的分類器,其所預(yù)測的數(shù)據(jù)的分類結(jié)果的準確率不高。
【發(fā)明內(nèi)容】
本發(fā)明的多個方面提供一種分類方法及裝置,用以提高分類結(jié)果的準確率。
本發(fā)明的一方面,提供一種分類方法,包括:
將待預(yù)測的數(shù)據(jù)分別輸入M個目標分類器,以獲得所述M個目標分類器中每個目標分類器所輸出的預(yù)測結(jié)果,M為大于或等于2的整數(shù),所述每個目標分類器之間相互獨立;
根據(jù)所述每個目標分類器所輸出的預(yù)測結(jié)果和所述每個目標分類器的預(yù)測權(quán)重,獲得所述數(shù)據(jù)的分類結(jié)果。
如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述將待預(yù)測的數(shù)據(jù)分別輸入M個目標分類器,以獲得所述M個目標分類器中每個目標分類器所輸出的預(yù)測結(jié)果之前,還包括:
利用M個訓(xùn)練樣本集中每個訓(xùn)練樣本集,分別構(gòu)建1個目標分類器,所述每個訓(xùn)練樣本集中所包含的訓(xùn)練樣本不完全相同;或者
利用1個訓(xùn)練樣本集,采用M個分類算法中每個分類算法,分別構(gòu)建1個目標分類器。
如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述根據(jù)所述每個目標分類器所輸出的預(yù)測結(jié)果和所述每個目標分類器的預(yù)測權(quán)重,獲得所述數(shù)據(jù)的分類結(jié)果之前,還包括:
根據(jù)所述每個目標分類器的分類準確率,獲得所述每個目標分類器的第一權(quán)重值;
根據(jù)第一指定時間和所述每個目標分類器的構(gòu)建時間,獲得所述每個目標分類器的第二權(quán)重值;
根據(jù)所述第一權(quán)重值和所述第二權(quán)重值,獲得所述每個目標分類器的預(yù)測權(quán)重。
如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述將待預(yù)測的數(shù)據(jù)分別輸入M個目標分類器,以獲得所述M個目標分類器中每個目標分類器所輸出的預(yù)測結(jié)果之前,還包括:
確定待更新的N個候選分類器,N為大于或等于M的整數(shù);
根據(jù)所述N個候選分類器中每個候選分類器的分類準確率,獲得所述每個候選分類器的第三權(quán)重值;
根據(jù)第二指定時間和所述每個候選分類器的構(gòu)建時間,獲得所述每個候選分類器的第四權(quán)重值;
根據(jù)所述第三權(quán)重值和/或所述第四權(quán)重值,從所述N個候選分類器中刪除P個候選分類器,以獲得所述M個目標分類器,P為大于或等于1,且小于或等于N-2的整數(shù)。
如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述將待預(yù)測的數(shù)據(jù)分別輸入M個目標分類器,以獲得所述M個目標分類器中每個目標分類器所輸出的預(yù)測結(jié)果之前,還包括:
確定所構(gòu)建的1個新的候選分類器;
根據(jù)所述新的候選分類器的分類準確率,獲得所述新的候選分類器的第五權(quán)重值;
根據(jù)第三指定時間和所述新的候選分類器的構(gòu)建時間,獲得所述每個候選分類器的第六權(quán)重值;
根據(jù)所述第五權(quán)重值和/或所述第六權(quán)重值,將待更新的Q個候選分類器與所述新的候選分類器,作為所述M個目標分類器。
本發(fā)明的另一方面,提供一種分類裝置,包括:
分類單元,用于將待預(yù)測的數(shù)據(jù)分別輸入M個目標分類器,以獲得所述M個目標分類器中每個目標分類器所輸出的預(yù)測結(jié)果,M為大于或等于2的整數(shù),所述每個目標分類器之間相互獨立;
處理單元,用于根據(jù)所述每個目標分類器所輸出的預(yù)測結(jié)果和所述每個目標分類器的預(yù)測權(quán)重,獲得所述數(shù)據(jù)的分類結(jié)果。
如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述裝置還包括構(gòu)建單元,用于
利用M個訓(xùn)練樣本集中每個訓(xùn)練樣本集,分別構(gòu)建1個目標分類器,所述每個訓(xùn)練樣本集中所包含的訓(xùn)練樣本不完全相同;或者
利用1個訓(xùn)練樣本集,采用M個分類算法中每個分類算法,分別構(gòu)建1個目標分類器。
如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述處理單元,還用于
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410433033.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:高溫控濕機
- 下一篇:補償型罐式基礎(chǔ)
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





