[發(fā)明專利]一種結合RBM和特征選擇的列表級排序?qū)W習方法在審
| 申請?zhí)枺?/td> | 201611147495.6 | 申請日: | 2016-12-13 |
| 公開(公告)號: | CN106599577A | 公開(公告)日: | 2017-04-26 |
| 發(fā)明(設計)人: | 唐賢倫;熊德意;郭飛;馬藝瑋;蔡軍;劉雨微;萬亞利;李佳歆 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00;G06N3/02 |
| 代理公司: | 北京同恒源知識產(chǎn)權代理有限公司11275 | 代理人: | 廖曦 |
| 地址: | 400065 *** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 rbm 特征 選擇 列表 排序 學習方法 | ||
技術領域
本發(fā)明涉及一種列表級排序?qū)W習方法,尤其涉及一種結合RBM和特征選擇的列表級排序?qū)W習方法。
背景技術
排序?qū)W習(Learning To Rank)是一個信息檢索與機器學習相結合的研究領域,廣泛地應用于文檔檢索、協(xié)同濾波、過濾垃圾郵件、關鍵詞抽取等眾多方面。
根據(jù)訓練數(shù)據(jù)的不同,將排序?qū)W習分為基于單個樣本、基于樣本對以及基于列表級的算法。基于單個樣本的方法與普通的分類回歸方法并無本質(zhì)不同,沒有融入與查詢相關的特征。基于樣本對的方法認為所有文檔對是獨立同分布的,這一點與實際不符,且結果不可避免地向擁有文檔對較多的查詢偏移。因為排序本身是對一系列對象排序列表的預測,所以最佳的學習數(shù)據(jù)應該是對象的列表而不是對象偶對或者某單個對象。
傳統(tǒng)的列表級ListNet算法,使用兩層神經(jīng)網(wǎng)絡為學習工具,并使用梯度下降法為優(yōu)化方法進行求解。由于該方法使用的神經(jīng)網(wǎng)絡結構簡單,且隨機初始化神經(jīng)網(wǎng)絡的連接權重,所以存在易陷入局部最小和訓練時間過長、不能較好逼近排序函數(shù)的問題。
當前的排序?qū)W習領域,對特征進行分析的研究較少。從信息檢索排序函數(shù)的構建方式易知,構成排序函數(shù)的特征之間并不是完全獨立的,如詞頻(TF)和逆文檔頻率(IDF)這兩個特征本身就是BM25(一種“非二值”的概率模型)特征的組成部分,冗雜的特征造成了排序?qū)W習的速度較慢且影響排序的精確度。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種結合RBM和特征選擇的列表級排序?qū)W習方法。
本發(fā)明的目的是通過以下技術方案來實現(xiàn)的,一種結合RBM和特征選擇的列表級排序?qū)W習方法,包括以下步驟:
S101、搜集數(shù)據(jù)集,將數(shù)據(jù)集分為訓練集、驗證集和測試集;設置多層RBM網(wǎng)絡的結構,修改RBM神經(jīng)網(wǎng)絡隱含層和可見層的重構的方式,將訓練集樣本中的每個列表的文檔向量以查詢列表為單位,分別輸入修改后的多層RBM進行預訓練;
S102、將傳統(tǒng)ListNet算法中兩層線性網(wǎng)絡替換為多層線性神經(jīng)網(wǎng)絡,用S101中預訓練得到的各層RBM網(wǎng)絡的連接權值初始化多層線性神經(jīng)網(wǎng)絡的連接權值,得到每個查詢列表的初始排序模型,以及每個查詢列表的初始排序函數(shù);基于訓練集,用歸一化衰減累計增益(NDCG)評價每個查詢列表所對應的初始排序模型在訓練集上的檢索質(zhì)量,并保存NDCG@n值(排序結果中前n個位置文檔的評價值)最大的排序模型參數(shù)和排序函數(shù);
S103、將整個訓練集數(shù)據(jù)輸入S102中得到的排序模型,得到各個查詢列表中文檔的預測得分值;用Luce模型和前k項(TOP-k)概率模型計算出按照人工標注降序排列的序列概率p(y)和按照模型預測分數(shù)降序排列的序列概率p(z),定義基于交叉熵的損失函數(shù)L(y,z),利用梯度下降法進行迭代優(yōu)化,微調(diào)排序函數(shù)的參數(shù),直到損失函數(shù)的值不再減小;保存微調(diào)過程中驗證集的NDCG@n取得最大值時的參數(shù),確定未經(jīng)特征選擇前的最佳排序模型RM0以及最佳多層線性排序函數(shù)RF0;
S104、將步驟S103所得最佳多層線性排序函數(shù)RF0的特征系數(shù)的絕對值看做特征的權重,取前K個權重最大的特征,構建新的訓練集、驗證集和測試集;基于新的數(shù)據(jù)集,重復執(zhí)行步驟S101至S步驟S103,得到特征選擇后的最佳排序模型RM1;
S105、將步驟S104中重新構建新的測試集的數(shù)據(jù)輸入特征選擇后的最佳排序模型RM1,利用已學習參數(shù)進行特征測試,對測試集進行排序,同時得到整個測試集的排序評價標準值NDCG@n。
進一步,步驟S101中:設置多層RBM網(wǎng)絡的結構為:將數(shù)據(jù)集中特征向量的維數(shù)作為第一層RBM的節(jié)點數(shù),設置最后一個RBM的隱含層為輸出層,節(jié)點數(shù)為1。
進一步,步驟S101中:RBM神經(jīng)網(wǎng)絡隱含層和可見層的重構的方式為:用可見層和隱含層激活值代替?zhèn)鹘y(tǒng)的sigmoid函數(shù)的概率生成值,作為各層的輸出,即:即:其中,i表示可見層節(jié)點,j表示隱含層節(jié)點,nv表示可見層節(jié)點數(shù),nj表示隱含層節(jié)點數(shù),vi是可見層的輸出,hj為隱含層的輸出,ci為可見層的偏置,bj為隱含層的偏置,wij是可見層到隱含層的連接權值,v’i是重構后的可見層輸出,h’j為重構后的隱含層輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經(jīng)重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611147495.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F19-00 專門適用于特定應用的數(shù)字計算或數(shù)據(jù)處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質(zhì)相關的數(shù)據(jù)處理方法或系統(tǒng)
G06F19-12 ..用于系統(tǒng)生物學的建模或仿真,例如:概率模型或動態(tài)模型,遺傳基因管理網(wǎng)絡,蛋白質(zhì)交互作用網(wǎng)絡或新陳代謝作用網(wǎng)絡
G06F19-14 ..用于發(fā)展或進化的,例如:進化的保存區(qū)域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質(zhì)折疊,結構域拓撲,用結構數(shù)據(jù)的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質(zhì)組學的,例如:基因型–表型關聯(lián),不均衡連接,種群遺傳學,結合位置鑒定,變異發(fā)生,基因型或染色體組的注釋,蛋白質(zhì)相互作用或蛋白質(zhì)核酸的相互作用





