[發(fā)明專利]一種以鄰域熵為查詢策略的三支決策主動學(xué)習(xí)方法在審
| 申請?zhí)枺?/td> | 202111046552.2 | 申請日: | 2021-09-07 |
| 公開(公告)號: | CN113837249A | 公開(公告)日: | 2021-12-24 |
| 發(fā)明(設(shè)計)人: | 董明剛;呂秋月 | 申請(專利權(quán))人: | 桂林理工大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 541004 廣西壯*** | 國省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 鄰域 查詢 策略 決策 主動 學(xué)習(xí)方法 | ||
本發(fā)明公開一種以鄰域熵為查詢策略的三支決策主動學(xué)習(xí)方法。該方法包括:使用已標(biāo)記數(shù)據(jù)集訓(xùn)練分類器;再將訓(xùn)練后的分類器對測試集進行分類并記錄其分類結(jié)果;計算所有未標(biāo)記數(shù)據(jù)的鄰域熵,并根據(jù)鄰域熵值的大小將未標(biāo)記數(shù)據(jù)分為正域、邊界域和負(fù)域;分別對不同區(qū)域的數(shù)據(jù)進行處理;選擇部分最有價值的未標(biāo)記數(shù)據(jù),再交由人類專家或注解器標(biāo)記;標(biāo)記后加入已標(biāo)記數(shù)據(jù)集并用于分類器的下一次訓(xùn)練;循環(huán)迭代執(zhí)行以上過程,直到達(dá)到預(yù)設(shè)條件或期望的評估標(biāo)準(zhǔn)停止學(xué)習(xí)。本發(fā)明可以選擇少量最有價值的數(shù)據(jù)并進行標(biāo)記,避免了選擇冗余數(shù)據(jù)和對分類性能貢獻不大的數(shù)據(jù),同時能夠減少對大量未標(biāo)記數(shù)據(jù)進行標(biāo)記所需的代價。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)挖掘及信息處理技術(shù)領(lǐng)域,尤其涉及一種以鄰域熵為查詢策略的三支決策主動學(xué)習(xí)方法。
背景技術(shù)
在實際生活中,未標(biāo)記數(shù)據(jù)比較豐富且易于獲得,這些未標(biāo)記數(shù)據(jù)中蘊含著很多的有效信息,然而從大量未標(biāo)記數(shù)據(jù)中手動提取出有用信息需要耗費大量的人力和物力,因此如何從未標(biāo)記數(shù)據(jù)中挖掘出最有效的信息成為了一大研究熱點。主動學(xué)習(xí)(ActiveLearning)是廣泛應(yīng)用的機器學(xué)習(xí)方法之一,其旨在減少所需標(biāo)記數(shù)據(jù)的數(shù)量,即只需使用較少的訓(xùn)練數(shù)據(jù)就能訓(xùn)練出性能較好的分類器。主動學(xué)習(xí)通過使用合適的查詢策略迭代選擇最有價值的未標(biāo)記數(shù)據(jù),并交由專家進行標(biāo)記,之后用查詢到的樣本訓(xùn)練分類模型,以提高模型的精確度。
在主動學(xué)習(xí)領(lǐng)域,針對查詢策略選擇未標(biāo)記數(shù)據(jù)的類型不同,可以將主動學(xué)習(xí)分為以下三種:1)基于信息性的主動學(xué)習(xí)方法:信息性衡量的是對該未標(biāo)記數(shù)據(jù)進行分類時的不確定性,因此該方法不考慮大量未標(biāo)記數(shù)據(jù)的分布信息,而僅僅根據(jù)少量數(shù)據(jù)的信息來選擇未標(biāo)記數(shù)據(jù)進行標(biāo)記,因此容易出現(xiàn)偏差;2)基于代表性的主動學(xué)習(xí)方法:代表性衡量的是該未標(biāo)記數(shù)據(jù)代表整個數(shù)據(jù)空間的能力,因此該方法主要使用聚類算法選擇位于高密度區(qū)域的未標(biāo)記數(shù)據(jù),這使得分類器的性能僅取決于聚類結(jié)果的質(zhì)量,而忽略了單個數(shù)據(jù)的信息性;3)融合信息性和代表性的主動學(xué)習(xí)方法:該方法考慮將信息性和代表性相結(jié)合,從而找出最有價值的未標(biāo)記數(shù)據(jù)進行標(biāo)記。但是,所提出的算法的性能通常不是最佳的,因為信息性標(biāo)準(zhǔn)和代表性標(biāo)準(zhǔn)之間很少互相增強,相反,在未標(biāo)記數(shù)據(jù)的選擇上往往存在分歧。
信息量是用來度量事件具有價值的程度,其大小與隨機事件發(fā)生的概率有關(guān)。其中一個事件發(fā)生的概率越大,信息量越少,產(chǎn)生的價值較低;一個事件發(fā)生的概率越小,信息量越大,產(chǎn)生的價值較高。信息熵(Entropy)是信息論中的一個概念,信息熵代表事件蘊含的平均信息量,即事件的期望信息量。其反映了隨機變量的隨機程度,也就是不確定性,信息熵越大說明隨機變量不確定性越大,分布越分散。在主動學(xué)習(xí)領(lǐng)域中,信息熵可以用來衡量分類器對數(shù)據(jù)分類結(jié)果的不確定程度,可以通過選擇信息性最高的數(shù)據(jù)進行標(biāo)記,從而提升分類器的泛化能力。
鄰域熵(Neighborhood Entropy)通過結(jié)合信息熵和樣本分布特征,以鄰域內(nèi)所有未標(biāo)記數(shù)據(jù)的加權(quán)熵值作為度量方式。三支決策思想通過決策函數(shù)將實體映射到三個區(qū)域,以此解決不同區(qū)域的數(shù)據(jù)具有不同價值的問題。因此,采用鄰域熵為查詢策略的三支決策主動學(xué)習(xí)方法可以選擇出同時具有信息性和代表性的未標(biāo)記數(shù)據(jù),查詢其標(biāo)簽后訓(xùn)練更有效的分類器,這為本發(fā)明提供了可能。
發(fā)明內(nèi)容
針對基于信息熵的主動學(xué)習(xí)方法選擇數(shù)據(jù)時僅考慮數(shù)據(jù)的信息性,提出一種以鄰域熵為查詢策略的三支決策主動學(xué)習(xí)方法。該方法設(shè)計了基于鄰域熵的選擇策略,該策略結(jié)合了數(shù)據(jù)空間的分布特征,以選擇同時具有信息性和代表性的未標(biāo)記數(shù)據(jù)進行標(biāo)記并加入訓(xùn)練集。同時采用鄰域熵作為決策函數(shù)將未標(biāo)記數(shù)據(jù)集映射到三個區(qū)域,再對不同區(qū)域的數(shù)據(jù)分別處理,以解決不同區(qū)域的數(shù)據(jù)具有不同價值的問題。該方法不但避免了選擇冗余數(shù)據(jù),而且還能提升訓(xùn)練集的多樣性,從而可以訓(xùn)練出更有效的分類器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于桂林理工大學(xué),未經(jīng)桂林理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111046552.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種計算機網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計算機可讀存儲介質(zhì)
- 決策協(xié)調(diào)方法、執(zhí)行裝置和決策協(xié)調(diào)器
- 一種基于循環(huán)更新模式的決策樹構(gòu)建方法
- 一種基于群決策的建筑項目決策系統(tǒng)及決策方法
- 一種基于反射弧的智慧大腦決策系統(tǒng)及決策方法
- 一種三維消防指揮決策輔助系統(tǒng)
- 一種決策方法、系統(tǒng)以及電子設(shè)備
- 基于決策引擎和模型平臺的業(yè)務(wù)決策邏輯更新方法
- 一種雙層優(yōu)先級決策系統(tǒng)
- 一種應(yīng)用程序的業(yè)務(wù)執(zhí)行方法、裝置及電子設(shè)備
- 基于區(qū)塊鏈的決策方法及裝置和電子設(shè)備





