[發(fā)明專利]一種基于XGBoost模型的多維指標(biāo)集成的技術(shù)評(píng)價(jià)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011581170.5 | 申請(qǐng)日: | 2020-12-28 |
| 公開(kāi)(公告)號(hào): | CN112685562B | 公開(kāi)(公告)日: | 2021-12-07 |
| 發(fā)明(設(shè)計(jì))人: | 劉冰冰;馮凱;王元卓;彭亮 | 申請(qǐng)(專利權(quán))人: | 中科院計(jì)算技術(shù)研究所大數(shù)據(jù)研究院 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/31;G06F40/205;G06K9/62;G06Q10/06 |
| 代理公司: | 鄭州明華專利代理事務(wù)所(普通合伙) 41162 | 代理人: | 王明朗 |
| 地址: | 450000 河南省鄭州*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 xgboost 模型 多維 指標(biāo) 集成 技術(shù) 評(píng)價(jià) 方法 | ||
1.一種基于XGBoost模型的多維指標(biāo)集成的技術(shù)評(píng)價(jià)方法,其特征在于:包括以下步驟:
S1、獲取技術(shù)評(píng)價(jià)科技類數(shù)據(jù),所述技術(shù)評(píng)價(jià)科技類數(shù)據(jù)包括全球的論文、專利、項(xiàng)目數(shù)據(jù);
S2、對(duì)技術(shù)評(píng)價(jià)科技類數(shù)據(jù)進(jìn)行處理,包括以下步驟:
(1)從論文、專利、項(xiàng)目中抽取專家和機(jī)構(gòu);
(2)對(duì)科技文獻(xiàn)中的科研人員和機(jī)構(gòu)名稱消歧;
(3)對(duì)論文、專利、項(xiàng)目、專家和機(jī)構(gòu)打上通用的技術(shù)領(lǐng)域標(biāo)簽、國(guó)家/地區(qū)標(biāo)簽;
(4)計(jì)算專家和機(jī)構(gòu)的評(píng)價(jià)指標(biāo)并進(jìn)行排名;
(5)從論文、專利、項(xiàng)目科技數(shù)據(jù)中按照領(lǐng)域抽取技術(shù)名詞;
S3、選擇技術(shù)名詞作為樣本,計(jì)算樣本技術(shù)的技術(shù)得分:通過(guò)國(guó)家統(tǒng)計(jì)局統(tǒng)計(jì)的全國(guó)技術(shù)熱度排行榜,對(duì)全國(guó)的技術(shù)熱度進(jìn)行排名,并計(jì)算技術(shù)的技術(shù)得分score(i),
score(i)=100-0.09*(i-1)
i=1,…,1000
S4、選擇技術(shù)的評(píng)價(jià)指標(biāo),將各評(píng)價(jià)指標(biāo)根據(jù)維度分為一級(jí)指標(biāo)和二級(jí)指標(biāo),建立技術(shù)評(píng)價(jià)指標(biāo)體系,對(duì)每一項(xiàng)技術(shù)逐項(xiàng)計(jì)算指標(biāo)結(jié)果,并對(duì)計(jì)算結(jié)果進(jìn)行歸一化處理;
S5、對(duì)XGBoost模型進(jìn)行訓(xùn)練與調(diào)優(yōu),輸出最終的評(píng)價(jià)模型,包括以下步驟:
(1)以技術(shù)得分score(i)作因變量,評(píng)價(jià)指標(biāo)作獨(dú)立變量,采用XGBoost進(jìn)行模型訓(xùn)練與調(diào)優(yōu);
(2)將1000個(gè)技術(shù)的指數(shù)作為數(shù)據(jù)集,隨機(jī)打散之后按照7:2:1的方式拆分成訓(xùn)練集、驗(yàn)證集和測(cè)試集;
(3)對(duì)XGBoost模型進(jìn)行訓(xùn)練:通過(guò)每輪迭代產(chǎn)生一個(gè)弱回歸器使每個(gè)回歸器在上一輪回歸器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練,通過(guò)降低偏差提高回歸器的精度,所述弱回歸器選擇為CART TREE,將每輪訓(xùn)練得到的弱回歸器加權(quán)求和得到總回歸器,得到模型目標(biāo)函數(shù)為:
式中,objt表示目標(biāo)函數(shù),l表示損失函數(shù),yi即真實(shí)值(對(duì)應(yīng)score(i)),ft(xi)是第t棵樹(shù)的輸出結(jié)果,是模型當(dāng)前輸出的結(jié)果,所以就是t次迭代輸出的最終結(jié)果,Ω(ft)是懲罰模型的復(fù)雜度,包括兩個(gè)部分,即葉子節(jié)點(diǎn)的總數(shù)和葉子節(jié)點(diǎn)得到的L2正則化項(xiàng);
(4)將訓(xùn)練集中的樣本輸入XGBoost模型,先添加一棵樹(shù),根據(jù)特征訓(xùn)練集中的特征進(jìn)行分裂,若生成的樹(shù)滿足要求,訓(xùn)練完成,得到訓(xùn)練好的XGBoost模型;否則繼續(xù)添加樹(shù),在對(duì)上一次分裂樹(shù)進(jìn)行分裂,通過(guò)不斷添加學(xué)習(xí)新的函數(shù),最終得到訓(xùn)練好的XGBoost模型;
(5)用測(cè)試集和驗(yàn)證集對(duì)訓(xùn)練好的XGBoost模型進(jìn)行測(cè)試和驗(yàn)證,選擇參數(shù)最優(yōu)的模型為最終評(píng)價(jià)模型;
S6、采用評(píng)價(jià)模型按照評(píng)價(jià)指標(biāo)體系計(jì)算出技術(shù)的綜合得分。
2.根據(jù)權(quán)利要求1所述的基于XGBoost模型的多維指標(biāo)集成的技術(shù)評(píng)價(jià)方法,其特征在于:所述評(píng)價(jià)指標(biāo)體系為:
3.根據(jù)權(quán)利要求2所述的基于XGBoost模型的多維指標(biāo)集成的技術(shù)評(píng)價(jià)方法,其特征在于:所述E-score是通過(guò)考慮技術(shù)的新穎性、持久性、社區(qū)性、增長(zhǎng)性計(jì)算E-score分值,計(jì)算方法為:首先按照規(guī)則過(guò)濾新興技術(shù);然后計(jì)算新興的技術(shù)名詞的E-Score,其計(jì)算數(shù)據(jù)源是最近十年在各類文獻(xiàn)中技術(shù)出現(xiàn)的情況,這十年的前三年為活躍期,后七年為持續(xù)期;其中新興技術(shù)過(guò)濾規(guī)則包括:
a、至少連續(xù)三年均出現(xiàn)文獻(xiàn)中;
b、至少在7篇文獻(xiàn)中出現(xiàn);
c、活躍期技術(shù)的發(fā)文數(shù)/持續(xù)期發(fā)文數(shù)=2;
d、持續(xù)期技術(shù)的發(fā)文數(shù)/持續(xù)期所有文獻(xiàn)數(shù)=0.15;
e、技術(shù)出現(xiàn)在不同文章不同作者;
若未通過(guò)過(guò)濾規(guī)則,則E-score為0;若滿足過(guò)濾規(guī)則,E-Score=2*活躍期趨勢(shì)+(近期趨勢(shì)+年中到去年的斜率)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科院計(jì)算技術(shù)研究所大數(shù)據(jù)研究院,未經(jīng)中科院計(jì)算技術(shù)研究所大數(shù)據(jù)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011581170.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于Xgboost框架的醫(yī)院門(mén)診就診量預(yù)測(cè)方法
- 一種基于xgBoost模型和Hadoop架構(gòu)的竊電識(shí)別分析方法及終端
- 基于改進(jìn)XGBoost的泛癌癥基因通路預(yù)測(cè)方法、系統(tǒng)和存儲(chǔ)介質(zhì)
- 一種基于XGBoost算法的區(qū)塊鏈產(chǎn)品檢測(cè)方法、系統(tǒng)及裝置
- 用于XGBoost模型的解釋方法
- 基于XGboost模型的鋰離子電池荷電狀態(tài)估算
- 一種數(shù)據(jù)隱私保護(hù)協(xié)議的分析方法、裝置及電子設(shè)備
- 一種基于xgboost算法的短期電價(jià)預(yù)測(cè)方法及裝置
- 基于GA-PSO優(yōu)化XGBoost的水文時(shí)間序列預(yù)測(cè)方法
- 一種用戶異常用電行為檢測(cè)方法及裝置
- 多維、多元生命水及其用途
- 一種多維地址域名解析的方法和裝置以及系統(tǒng)
- 創(chuàng)建多維操作系統(tǒng)的方法和裝置
- 一種對(duì)多維地址數(shù)據(jù)進(jìn)行解析的方法和裝置以及系統(tǒng)
- 一種分組的交付和路由選擇的方法和裝置以及系統(tǒng)
- 多維碼處理方法、發(fā)送端、接收端和系統(tǒng)
- 多維度信息展示方法及裝置
- 一種屏幕可視化方法、裝置、電子設(shè)備及介質(zhì)
- 多維數(shù)據(jù)集的生成方法及裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 多維時(shí)空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





