[發明專利]一種基于預分類和特征學習抗噪的網絡信息檢索方法在審
| 申請號: | 201811548333.2 | 申請日: | 2018-12-18 |
| 公開(公告)號: | CN109697257A | 公開(公告)日: | 2019-04-30 |
| 發明(設計)人: | 潘颋璇;王斌 | 申請(專利權)人: | 天罡網(北京)安全科技有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06N3/04;G06N3/08 |
| 代理公司: | 北京慧泉知識產權代理有限公司 11232 | 代理人: | 李娜 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預分類 網絡信息檢索 特征學習 抗噪 查詢數據 查詢信息 反饋信息 分類函數 激活函數 檢索效率 結果提供 抗噪性能 快速檢索 神經網絡 提取特征 圖像信息 網絡數據 網絡信息 網絡訓練 線性單元 學習訓練 訓練網絡 余弦距離 節點數 連接層 數據集 相似度 度量 可用 壓差 存儲 文本 查詢 傳播 網絡 | ||
1.一種基于預分類和特征學習抗噪的網絡信息檢索方法,其特征在于:該方法具體步驟如下:
步驟一、采用深度學習訓練網絡;
采用名為VGG16的16層深度神經網絡,并使用轉移學習來微調預先訓練的網絡;其中,卷積圖層中的權重是固定的,完全連接的圖層會被重新訓練以輸出數據圖像的類別;傳輸模型的前兩個完全連接層有512個節點;為避免擬合,使用整流線性單元ReLU作為激活函數,并在每個完全連接層后添加一個壓差層;最后一個完全連接的層具有的節點數為N級,并使用softmax函數作為其分類函數;將上述學習任務作為一個多分類問題進行訓練,其中最后一層的輸出可以被解釋為分類概率的估計;所以這個階段的損失定義為:
其中,W和b是網絡參數,n是訓練樣本的索引,N是訓練樣本數,yn是標簽,xn是網絡輸出結果;
反向梯度損失函數可定義為
其中,w和b是網絡參數,n是訓練樣本的索引,N是訓練樣本數,yn是標簽,xn是網絡輸出結果;
利用梯度下降算法根據公式(2)計算w和b,并得到公式(1)損失函數的最優解;
對于一個新的查詢網絡信息xj,它屬于類別C的概率(Prob)為:
[Prob,C]=max(WTxj+b) (3)
其中,W和b是網絡參數;
步驟二、特征學習和預分類
按照步驟一進行網絡訓練后,數據集通過訓練網絡以前向傳播的方式提取特征,獲得了Fc2層每個網絡信息的特征向量,并使用softmax從最后一層獲得預分類結果;之后,數據預分類的結果提供反饋信息,即屬于同一類別的網絡數據的特征應該存儲在一起;對于新來的查詢數據,使用余弦距離來度量查詢信息與查詢中屬于同一類別的信息之間的相似度;整個過程將分為離線處理階段和在線處理階段兩個部分。
2.根據權利要求1所述的一種基于預分類和特征學習抗噪的網絡信息檢索方法,其特征在于:所述離線處理階段流程為:
輸入:網絡信息數據集
輸出:數據集相對應的分類
過程:S11:對數據預處理,使用中值濾波技術去除噪聲;
S12:通過卷積神經網絡提取數據的特征,采用的卷積神經網絡為VGG16,參數權重為其在Wikipedia Links data和ImageNet上訓練好的數值;卷積神經網絡每一層都可表示不同的特征圖,實驗證明全連接層中間特征效果最好,因此提取全連接層Fc2特征;
S13:數據通過卷積神經網絡后送入softmax分類器,對網絡信息數據集進行分類,并將分類結果反饋到特征庫中;
S14:按類別反饋對步驟S13提取的數據庫特征按類別進行存儲。
3.根據權利要求2所述的一種基于預分類和特征學習抗噪的網絡信息檢索方法,其特征在于:所述的Wikipedia Links data用于文本信息檢索,具體參數包括:動量為0.9,學習率為0.02,重量衰減為4*10-5;所述的ImageNet用于圖像信息檢索,具體參數包括:動量為0.9,學習率為0.01,重量衰減為5*10-5。
4.根據權利要求1所述的一種基于預分類和特征學習抗噪的網絡信息檢索方法,其特征在于:所述的在線處理階段流程為:
輸入:查詢網絡信息
輸出:與查詢信息相似的N條信息
過程:S21:對查詢網絡數據信息預處理,使用中值濾波技術去除噪聲;
S22:通過卷積神經網絡提取查詢數據的特征,和離線處理階段一樣,提取全連接層Fc2特征;
S23:將查詢信息送入softmax分類器進行預分類,返回分類結果;
S24:根據步驟S23查詢信息的分類反饋,進行相似度量;
S25:根據步驟S24的計算結果,按相似度排序輸出最相似的前N條信息。
5.根據權利要求4所述的一種基于預分類和特征學習抗噪的網絡信息檢索方法,其特征在于:所述步驟S24具體為:尋找在數據集中的同一類別的特征庫,計算該類別下網絡數據集與查詢信息的相似度,選擇3種相似度度量方式,設De(x,y)為兩條網絡查詢信息的歐氏距離相似度,Dc(x,y)為兩條查詢信息的切比雪夫距離相似度,cos(θ)為兩條查詢信息的余弦距離相似度,xi和yi分別表示兩條查詢信息的特征向量,其相似度度量公式如下所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天罡網(北京)安全科技有限公司,未經天罡網(北京)安全科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811548333.2/1.html,轉載請聲明來源鉆瓜專利網。





