[發(fā)明專利]一種結(jié)合RBM和特征選擇的列表級排序?qū)W習(xí)方法在審
| 申請?zhí)枺?/td> | 201611147495.6 | 申請日: | 2016-12-13 |
| 公開(公告)號: | CN106599577A | 公開(公告)日: | 2017-04-26 |
| 發(fā)明(設(shè)計)人: | 唐賢倫;熊德意;郭飛;馬藝瑋;蔡軍;劉雨微;萬亞利;李佳歆 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00;G06N3/02 |
| 代理公司: | 北京同恒源知識產(chǎn)權(quán)代理有限公司11275 | 代理人: | 廖曦 |
| 地址: | 400065 *** | 國省代碼: | 重慶;85 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 rbm 特征 選擇 列表 排序 學(xué)習(xí)方法 | ||
1.一種結(jié)合RBM和特征選擇的列表級排序?qū)W習(xí)方法,其特征在于:包括以下步驟:
S101、搜集數(shù)據(jù)集,將數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測試集;設(shè)置多層RBM網(wǎng)絡(luò)的結(jié)構(gòu),修改RBM神經(jīng)網(wǎng)絡(luò)隱含層和可見層的重構(gòu)的方式,將訓(xùn)練集樣本中的每個列表的文檔向量以查詢列表為單位,分別輸入修改后的多層RBM進(jìn)行預(yù)訓(xùn)練;
S102、將傳統(tǒng)ListNet算法中兩層線性網(wǎng)絡(luò)替換為多層線性神經(jīng)網(wǎng)絡(luò),用S101中預(yù)訓(xùn)練得到的各層RBM網(wǎng)絡(luò)的連接權(quán)值初始化多層線性神經(jīng)網(wǎng)絡(luò)的連接權(quán)值,得到每個查詢列表的初始排序模型,以及每個查詢列表的初始排序函數(shù);基于訓(xùn)練集,用歸一化衰減累計增益評價每個查詢列表所對應(yīng)的初始排序模型在訓(xùn)練集上的檢索質(zhì)量,并保存NDCG@n值最大的排序模型參數(shù)和排序函數(shù);
S103、將整個訓(xùn)練集數(shù)據(jù)輸入S102中得到的排序模型,得到各個查詢列表中文檔的預(yù)測得分值;用Luce模型和前k項TOP-k概率模型計算出按照人工標(biāo)注降序排列的序列概率p(y)和按照模型預(yù)測分?jǐn)?shù)降序排列的序列概率p(z),定義基于交叉熵的損失函數(shù)L(y,z),利用梯度下降法進(jìn)行迭代優(yōu)化,微調(diào)排序函數(shù)的參數(shù),直到損失函數(shù)的值不再減小;保存微調(diào)過程中驗(yàn)證集的NDCG@n取得最大值時的參數(shù),確定未經(jīng)特征選擇前的最佳排序模型RM0以及最佳多層線性排序函數(shù)RF0;
S104、將步驟S103所得最佳多層線性排序函數(shù)RF0的特征系數(shù)的絕對值看做特征的權(quán)重,取前K個權(quán)重最大的特征,構(gòu)建新的訓(xùn)練集、驗(yàn)證集和測試集;基于新的數(shù)據(jù)集,重復(fù)執(zhí)行步驟S101至S步驟S103,得到特征選擇后的最佳排序模型RM1;
S105、將步驟S104中重新構(gòu)建新的測試集的數(shù)據(jù)輸入特征選擇后的最佳排序模型RM1,利用已學(xué)習(xí)參數(shù)進(jìn)行特征測試,對測試集進(jìn)行排序,同時得到整個測試集的排序評價標(biāo)準(zhǔn)值NDCG@n。
2.根據(jù)權(quán)利要求1所述的一種結(jié)合RBM和特征選擇的列表級排序?qū)W習(xí)方法,其特征在于:步驟S101中:設(shè)置多層RBM網(wǎng)絡(luò)的結(jié)構(gòu)為:將數(shù)據(jù)集中特征向量的維數(shù)作為第一層RBM的節(jié)點(diǎn)數(shù),設(shè)置最后一個RBM的隱含層為輸出層,節(jié)點(diǎn)數(shù)為1。
3.根據(jù)權(quán)利要求1所述的一種結(jié)合RBM和特征選擇的列表級排序?qū)W習(xí)方法,其特征在于:步驟S101中:RBM神經(jīng)網(wǎng)絡(luò)隱含層和可見層的重構(gòu)的方式為:用可見層和隱含層激活值代替?zhèn)鹘y(tǒng)的sigmoid函數(shù)的概率生成值,作為各層的輸出,即:其中,i表示可見層節(jié)點(diǎn),j表示隱含層節(jié)點(diǎn),nv表示可見層節(jié)點(diǎn)數(shù),nj表示隱含層節(jié)點(diǎn)數(shù),vi是可見層的輸出,hj為隱含層的輸出,ci為可見層的偏置,bj為隱含層的偏置,wij是可見層到隱含層的連接權(quán)值,v’i是重構(gòu)后的可見層輸出,h’j為重構(gòu)后的隱含層輸出。
4.根據(jù)權(quán)利要求1所述的一種結(jié)合RBM和特征選擇的列表級排序?qū)W習(xí)方法,其特征在于:步驟S102中,用各RBM層重構(gòu)后的可見層到隱含層之間的連接權(quán)值用來初始化多層線性神經(jīng)網(wǎng)絡(luò)的連接權(quán)值,用各RBM的隱含層偏置初始化線性神經(jīng)網(wǎng)絡(luò)各隱含層的偏置,最后一層RBM的隱含層的偏置初始化神經(jīng)網(wǎng)絡(luò)輸出層的偏置值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611147495.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F19-00 專門適用于特定應(yīng)用的數(shù)字計算或數(shù)據(jù)處理的設(shè)備或方法
G06F19-10 .生物信息學(xué),即計算分子生物學(xué)中的遺傳或蛋白質(zhì)相關(guān)的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學(xué)的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡(luò),蛋白質(zhì)交互作用網(wǎng)絡(luò)或新陳代謝作用網(wǎng)絡(luò)
G06F19-14 ..用于發(fā)展或進(jìn)化的,例如:進(jìn)化的保存區(qū)域決定或進(jìn)化樹結(jié)構(gòu)
G06F19-16 ..用于分子結(jié)構(gòu)的,例如:結(jié)構(gòu)排序,結(jié)構(gòu)或功能關(guān)系,蛋白質(zhì)折疊,結(jié)構(gòu)域拓?fù)洌媒Y(jié)構(gòu)數(shù)據(jù)的藥靶,涉及二維或三維結(jié)構(gòu)的
G06F19-18 ..用于功能性基因組學(xué)或蛋白質(zhì)組學(xué)的,例如:基因型–表型關(guān)聯(lián),不均衡連接,種群遺傳學(xué),結(jié)合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用
- 長白豬RBM3基因及其重組慢病毒載體的構(gòu)建和應(yīng)用
- 人RBM17基因的用途及其相關(guān)藥物
- 一種基于遷移深度學(xué)習(xí)的風(fēng)險識別方法以及系統(tǒng)
- 一種小鼠RBM10基因編輯位點(diǎn)及其應(yīng)用
- RNA結(jié)合蛋白Rbm24基因在心肌病和心律失常中的應(yīng)用
- 基于RBM網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)的聯(lián)合調(diào)制識別方法
- 基于RBM模型的推薦方法、RBM模型的訓(xùn)練方法及裝置
- 一種基于GA-RBM的分布式光伏發(fā)電量短期預(yù)測方法
- 檢測RBM5基因相對表達(dá)量的方法、引物和探針以及試劑盒
- 一種研究RBM8A基因促進(jìn)腦膠質(zhì)母細(xì)胞瘤增殖功能的研究方法





