[發(fā)明專利]一種案例推理分類器案例檢索方法在審
| 申請?zhí)枺?/td> | 201910582920.1 | 申請日: | 2019-07-01 |
| 公開(公告)號: | CN110263119A | 公開(公告)日: | 2019-09-20 |
| 發(fā)明(設(shè)計)人: | 代祖華;徐進;李克龍;王玉環(huán);李曉婷;李泓毅;張光輝;周安偉 | 申請(專利權(quán))人: | 西北師范大學(xué) |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35 |
| 代理公司: | 西安合創(chuàng)非凡知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 61248 | 代理人: | 于波 |
| 地址: | 730070 甘肅*** | 國省代碼: | 甘肅;62 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 案例檢索 分類器 案例推理 案例庫 決策樹 分簇 推理 計算時間復(fù)雜度 規(guī)約 案例特征 分類能力 檢索目標 實驗數(shù)據(jù) 索引策略 特征評價 特征選擇 特征訓(xùn)練 信息增益 選擇信息 傳統(tǒng)的 數(shù)據(jù)集 加權(quán) 算法 改進 歸納 投票 研究 | ||
1.一種案例推理分類器案例檢索方法,其特征在于,包括:
S1,案例庫規(guī)約特征選擇;
S2,C4.5算法與案例庫分簇決策樹訓(xùn)練;
S3,加權(quán)投票KNN方法。
2.根據(jù)權(quán)利要求1所述的案例推理分類器案例檢索方法,其特征
在于,所述步驟S1包括:
采用基于信息增益比率的特征排列評估方法,按照特征排列次序,由
小到大,利用過濾器算法,以逐步后向刪除方向進行特征選擇,采用C4.5算法進行特征分類性能評價,直至分類準確率開始下降為止;決策樹規(guī)約特征選擇算法流程如下:
S11,以信息增益比率作為評估標準,生成FA排列次序;
S12,過濾FA中信息增益比率為0的特征,生成初次選擇特征集FA1;
S13,調(diào)用C4.5算法,在FA1上生成訓(xùn)練數(shù)據(jù)集D的分類準確率A1;
S14,去除FA1中信息增益比率最小的特征為特征集FA2;
S15,調(diào)用C4.5算法,在FA2上生成訓(xùn)練數(shù)據(jù)集D的分類準確率A2;
S16,如果A2>=A1,則 A1=A2,FA1=FA2,轉(zhuǎn)向步驟S14;
S17,輸出A=FA1。
3.根據(jù)權(quán)利要求1所述的案例推理分類器案例檢索方法,其特征
在于,所述步驟S2包括:
GWCBR分類器采用C4.5算法訓(xùn)練案例庫分簇決策樹,用案例特征的信息增益比選擇決策樹結(jié)點,信息增益比率的計算以熵為基礎(chǔ),熵表示案例庫的類別純度;若案例庫S的類特征有m個取值,S的熵定義為:
(2-1)
其中,為類i在案例庫S中出現(xiàn)的概率;
條件熵表示在已知特征值A(chǔ)的條件下,案例庫S的不確定性,定義為:
(2-2)
其中,是屬性A的值域集合,是S中屬性A取值為v的子集;
案例特征A的信息增益(Information gain)指的是使用特征A劃分案例庫,劃分前后熵的變化,用(2-3)式表示:
(2-3)
應(yīng)用案例特征的信息增益作為決策樹生成結(jié)點選擇準則,存在偏袒多值特征的內(nèi)在缺陷,需引入信息增益比進行校正,用(2-4)式表示:
(2-4)
其中,
案例庫S的分簇決策樹訓(xùn)練算法如下:
S21,如果S中所有實例屬于同一類,則Tree為單結(jié)點樹,S為該結(jié)點的劃分實例簇,算法返回Tree;
S22,如果S中實例數(shù)小于葉子節(jié)點最小樣本數(shù),則Tree為單結(jié)點樹,S為該結(jié)點的劃分實例簇,算法返回Tree;
S23,如果,則Tree為單結(jié)點樹,S為該結(jié)點的劃分實例簇,算法返回Tree;
S24,否則,計算A中各特征在S上的信息增益比;
S25,選擇信息增益比最大的特征;
S26,決策樹的根結(jié)點root=,依據(jù)特征特征值不同,將S分割為若干個非空子集;
S27,對每個子樹結(jié)點對應(yīng)的非空子集,以A-為特征集,遞歸調(diào)用S21-S27,構(gòu)建root的第i個子樹結(jié)點;
S28,返回Tree。
4.根據(jù)權(quán)利要求1所述的案例推理分類器案例檢索方法,其特征
在于,所述步驟S3包括:
設(shè)案例集S對應(yīng)于特征空間的點,即
(2-5)
其中是特征向量,為案例類別特征,
根據(jù)給定的特征向量距離度量方法,在案例集中找出與目標案例最鄰近的K個案例,記做,在中根據(jù)多數(shù)重用規(guī)則,決定的類別y:
(2-6)
其中I為指示函數(shù),KNN算法的特殊情況是k=1的情形,稱為最近鄰算法;
對于給定案例集,K近鄰法中特征向量的距離度量、K值及分類決策規(guī)則確定后,就可以確定一個目標案例所屬的類;
度量兩個n維特征向量的案例相似程度,一般使用歐式距離,也可以是距離或Minkowski距離;設(shè)n維特征空間X,有的距離定義為()=,.當p=2時,稱為歐式距離,p=1時,稱為曼哈頓距離;
在度量距離公式中賦予特征不同權(quán)重,在歐氏距離公式中給不同特征賦予不同權(quán)重如(2-7)式:
()=,其中是第i個特征的權(quán)重; (2-7)
加權(quán)投票KNN方法算法如下:
S31,首先過濾Si對應(yīng)分簇決策樹路徑上為標稱類型的特征,生成初始特征子集FAi;
S32,在子集Si上,計算FAi中各個特征的信息增益率;
S33,過濾FAi中信息增益率為0的特征,生成新的FAi;
S34,對FAi上的信息增益率進行歸一化計算,作為Si的特征權(quán)重。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北師范大學(xué),未經(jīng)西北師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910582920.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:智慧建筑集成管理系統(tǒng)
- 下一篇:語料標注方法及裝置
- 熱軋帶鋼板形的案例庫建立方法
- 一種支持時間序列匹配的案例推理方法
- 一種業(yè)務(wù)指導(dǎo)案例庫的創(chuàng)建及更新方法、業(yè)務(wù)指導(dǎo)方法
- 一種雷達電路板故障診斷方法
- 一種基于數(shù)據(jù)案例庫管理模塊的多媒體課件生成方法
- 非侵入終端辨識能力測試案例庫構(gòu)建方法及模擬檢測平臺
- 一種村鎮(zhèn)地質(zhì)災(zāi)害風(fēng)險預(yù)估方法及系統(tǒng)
- 一種基于案例庫匹配的自適應(yīng)服務(wù)遷移方法及裝置
- 應(yīng)用于PAS案例庫的維護方法、裝置及計算機設(shè)備
- 一種基于智能眼鏡的培訓(xùn)教學(xué)系統(tǒng)和方法





