[發明專利]一種維基百科概念依賴關系識別方法有效
| 申請號: | 202011600680.2 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112612897B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 肖奎;王時繪;張?;婁園園;周洋 | 申請(專利權)人: | 湖北大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F18/214;G06N20/20 |
| 代理公司: | 北京眾達德權知識產權代理有限公司 11570 | 代理人: | 劉杰 |
| 地址: | 430062 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 百科 概念 依賴 關系 識別 方法 | ||
1.一種維基百科概念依賴關系識別方法,其特征在于,包括如下步驟:
由至少兩個的基分類器組成Bagging分類器,并由至少兩個Bagging分類器組成的Boosting分類器;
用Boosting分類器對數據集進行訓練:
前一個Bagging分類器對所有樣本完成預測,前一個Bagging分類器獲取全部的樣本數據后,其中的每個基分類器從樣本中放回式采樣,然后進行訓練;
后一個Bagging分類器觀察前一個分類器,當所有樣本輸入到第二個分類器后,把所有的樣本加上權值,并將前一個Bagging分類器預測錯誤的樣本分配的權值大于預測正確的樣本分配的權值;
樣本經過所有的Bagging分類器后,得到最終的分類結果;
輸入測試樣本,Boosting分類器預測當前樣本概念對間的依賴關系;
所述后一個Bagging分類器觀察前一個分類器,當所有樣本輸入到第二個分類器后,把所有的樣本加上權值,并將前一個Bagging分類器預測錯誤的樣本分配的權值大于預測正確的樣本分配的權值,具體包括:
初始化每個樣本的權重;
計算采樣的概率重分布,并根據計算出來的所述概率重分布進行樣例重分布并進行分類預測;
計算分類預測的錯誤率
根據錯誤率來重新調整樣例權重;
所述計算采樣的概率重分布,具體為:
其中1≤i≤N,N為樣本個數,1≤t≤T,T為迭代次數,為樣本權值;
所述計算分類預測的錯誤率,具體為:
其中P為樣本x的真實標記不等于分類器對樣本X的預測標記的概率,也就是預測錯誤的概率;yi是指樣本x真實標記;Gm(xi)是分類器對樣本xi的分類結果,可以把每一次的Bagging分類器看作一個G(xi),當所有的Bagging分類器完成預測以后,對這些Bagging分類器進行線性組合,得到最終的Boosting分類器,wmi是樣本的權值;I(Gm(xi)≠yi)是指如果Gm(xi)不等于樣本的真實標記時就等于1,否則就等于0;
所述根據錯誤率來重新調整樣例權重,具體為:
更新訓練數據集的權值分布:
Dm+1=(wm+1,1,…,wm+1,i,…,wm+1,N)
其中:Zm是規范化因子,N是樣本個數;αm是Gm(xi)的系數。
2.根據權利要求1所述的一種維基百科概念依賴關系識別方法,其特征在于,所述至少兩個以上的基分類器包括:隨機森林、支持向量機、決策樹、樸素貝葉斯,隨機梯度下降。
3.根據權利要求1所述的一種維基百科概念依賴關系識別方法,其特征在于,所述由至少兩個Bagging分類器組成的Boosting分類器,具體為:
至少兩個Bagging分類器以串行方式排列組成Boosting分類器。
4.根據權利要求1所述的一種維基百科概念依賴關系識別方法,其特征在于,所述樣本集具體為:CMU數據集和AL_CPL數據集。
5.根據權利要求1所述的一種維基百科概念依賴關系識別方法,其特征在于,所述當前樣本概念對間的依賴關系,具體包括:
所述概念對分為第一概念和第二概念;
第一概念是第二概念的依賴關系;
第二概念是第一概念的依賴關系;
第一概念和第二概念是其他關系。
6.一種維基百科概念依賴關系識別裝置,其特征在于,包括如下:
Boosting分類器組成模塊:由至少兩個的基分類器組成Bagging分類器,并由至少兩個Bagging分類器組成的Boosting分類器;
Boosting分類器訓練模塊:用Boosting分類器對數據集進行訓練:
Bagging分類器訓練模塊:前一個Bagging分類器對所有樣本完成預測,前一個Bagging分類器獲取全部的樣本數據后,其中的每個基分類器從樣本中放回式采樣,然后進行訓練;
權值重分配模塊:后一個Bagging分類器觀察前一個分類器,當所有樣本輸入到第二個分類器后,把所有的樣本加上權值,并將前一個Bagging分類器預測錯誤的樣本分配的權值大于預測正確的樣本分配的權值;
分類結果獲取模塊:樣本經過所有的Bagging分類器后,得到最終的分類結果;
預測模塊:輸入測試樣本,Boosting分類器預測當前樣本概念對間的依賴關系;
所述后一個Bagging分類器觀察前一個分類器,當所有樣本輸入到第二個分類器后,把所有的樣本加上權值,并將前一個Bagging分類器預測錯誤的樣本分配的權值大于預測正確的樣本分配的權值,具體包括:
初始化每個樣本的權重;
計算采樣的概率重分布,并根據計算出來的所述概率重分布進行樣例重分布并進行分類預測;
計算分類預測的錯誤率
根據錯誤率來重新調整樣例權重;
所述計算采樣的概率重分布,具體為:
其中1≤i≤N,N為樣本個數,1≤t≤T,T為迭代次數,為樣本權值;
所述計算分類預測的錯誤率,具體為:
其中P為樣本x的真實標記不等于分類器對樣本X的預測標記的概率,也就是預測錯誤的概率;yi是指樣本x真實標記;Gm(xi)是分類器對樣本xi的分類結果,可以把每一次的Bagging分類器看作一個G(xi),當所有的Bagging分類器完成預測以后,對這些Bagging分類器進行線性組合,得到最終的Boosting分類器,wmi是樣本的權值;I(Gm(xi)≠yi)是指如果Gm(xi)不等于樣本的真實標記時就等于1,否則就等于0;
所述根據錯誤率來重新調整樣例權重,具體為:
更新訓練數據集的權值分布:
Dm+1=(wm+1,1,…,wm+1,i,…,wm+1,N)
其中:Zm是規范化因子,N是樣本個數;αm是Gm(xi)的系數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北大學,未經湖北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011600680.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種手術輔助器械
- 下一篇:一種航路網絡生成方法、裝置及計算機存儲介質





