[發明專利]基于層次混合網絡的標題黨文章檢測方法及聯邦學習策略在審
| 申請號: | 201811332621.4 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN109657055A | 公開(公告)日: | 2019-04-19 |
| 發明(設計)人: | 廖楓;卓漢逵 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 廣州容大專利代理事務所(普通合伙) 44326 | 代理人: | 劉新年 |
| 地址: | 510275 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 關聯向量 關聯信息 混合網絡 內容文本 特征提取 文檔向量 文章標題 有效地 檢測 標題編碼器 內容編碼器 標題特征 分類網絡 使用機器 文檔標題 文檔內容 學習策略 提取器 文本 關聯 閱讀 分類 | ||
1.一種基于層次混合網絡的標題黨文章檢測模型,包括:
標題編碼器,用于對文章標題進行特征提取,將文章標題文本有效地編碼成標題向量;
內容編碼器,用于對內容文本進行特征提取,將內容文本有效地編碼成文檔向量;
關聯信息提取器,用于使用機器閱讀理解技術,對所述標題向量及文檔向量進行關聯,從而得到兩者的關聯向量;
分類網絡,用于基于標題向量、文檔向量以及關聯向量進行標題黨分類,獲得預測結果。
2.如權利要求1所述的一種基于層次混合網絡的標題黨文章檢測模型,其特征在于:所述標題編碼器與內容編碼器通過卷積神經網絡或遞歸申請網絡針對文章標題與文章內容的特點,提取出文章標題及文章內容中的特征,將文章標題文本及文章內容文本分別有效地編碼成所述標題向量及文檔向量。
3.如權利要求1所述的一種基于層次混合網絡的標題黨文章檢測模型,其特征在于:所述關聯信息提取器利用卷積神經網絡去卷積文檔向量與標題向量,從而得到兩者之間的關聯向量。
4.如權利要求1所述的一種基于層次混合網絡的標題黨文章檢測模型,其特征在于:所述關聯信息提取器將文檔向量與標題向量進行點積,將點積結果作為兩者之間的關聯向量。
5.一種基于層次混合網絡的標題黨文章檢測模型的聯邦學習策略,應用于兩個平臺之間,其中一個平臺方基于所述基于層次混合網絡的標題黨文章檢測模型且標注了標簽,所述聯邦學習策略包括:
步驟S1,平臺雙方各自初始化一個用于提取特征的神經網絡以得到各自的特征向量;
步驟S2,無標簽方平臺將其特征向量傳遞到有標簽方平臺,所述有標簽方平臺利用無標簽方平臺傳遞過來的特征向量,與自身的特征向量結合,得到最終的預測結果,并以此計算得到損失值;
步驟S3,所述有標簽方平臺利用該損失值更新自身的網絡,并將該損失值傳遞給所述無標簽方平臺,所述無標簽方平臺利用該傳遞過來的損失值更新自身的網絡;
步驟S4,重復上述訓練過程,直至所述損失值小于預設閾值,以完成聯邦學習過程。
6.如權利要求5所述的一種基于層次混合網絡的標題黨文章檢測模型的聯邦學習策略,其特征在于:于步驟S1中,所初始化的網絡不包括所述標題黨文章檢測模型的分類網絡部分及最后的激活函數。
7.如權利要求5所述的一種基于層次混合網絡的標題黨文章檢測模型的聯邦學習策略,其特征在于:于步驟S3中,所述有標簽方平臺利用該損失值更新自身的特征提取網絡及分類網絡,所述無標簽方平臺利用該損失值更新自身的特征提取網絡。
8.一種基于層次混合網絡的標題黨文章檢測模型的聯邦學習策略,應用于兩個平臺之間,其中一個平臺方基于所述基于層次混合網絡的標題黨文章檢測模型且標注了標簽,包括:
步驟S1,有標簽方的平臺將擁有的標簽傳遞為無標簽方平臺,使得雙方平臺共享標簽;
步驟S2,雙方平臺各自進行標題黨文章檢測模型訓練,直至模型收斂,得到各自的模型,所述無標簽方平臺所訓練的標題黨文章檢測模型為利用CNN以及分類網絡構成的簡單的標題黨文章檢測模型;
步驟S3,雙方平臺各自隨機初始化一個用于模擬對方的特征向量的神經網絡,并互傳特征向量,訓練各自的模擬模型直至收斂;
步驟S4,雙方平臺利用各自的標題黨文章檢測模型與模擬模型進行重組,并新建一個新的分類網絡進行訓練,最終各自得到不依賴對方平臺的輸入,只依賴自身輸入的聯邦模型。
9.如權利要求8所述的一種基于層次混合網絡的標題黨文章檢測模型的聯邦學習策略,其特征在于:于步驟S3中,在每一訓練步驟中,將其中一平臺中的輸入經由上述訓練好的模型中的提取特征部分的結果傳遞給另一平臺。
10.如權利要求8所述的一種基于層次混合網絡的標題黨文章檢測模型的聯邦學習策略,其特征在于:于步驟S4中,對于某一平臺,取其標題黨檢測模型中提取特征部分與其模擬模型進行組合,再將它們的結果進行連接,輸入到一個新建的分類網絡中得到預測結果,由此得到最終的損失值,并以此優化分類網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811332621.4/1.html,轉載請聲明來源鉆瓜專利網。





