[發明專利]基于層次混合網絡的標題黨文章檢測方法及聯邦學習策略在審
| 申請號: | 201811332621.4 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN109657055A | 公開(公告)日: | 2019-04-19 |
| 發明(設計)人: | 廖楓;卓漢逵 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 廣州容大專利代理事務所(普通合伙) 44326 | 代理人: | 劉新年 |
| 地址: | 510275 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 關聯向量 關聯信息 混合網絡 內容文本 特征提取 文檔向量 文章標題 有效地 檢測 標題編碼器 內容編碼器 標題特征 分類網絡 使用機器 文檔標題 文檔內容 學習策略 提取器 文本 關聯 閱讀 分類 | ||
本發明公開了一種基于層次混合網絡的標題黨文章檢測模型及聯邦策略,所述模型包括:標題編碼器,用于對文章標題進行特征提取,將文章標題文本有效地編碼成標題向量;內容編碼器,用于對內容文本進行特征提取,將內容文本有效地編碼成文檔向量;關聯信息提取器,用于使用機器閱讀理解相關技術,對所述標題向量及文檔向量進行關聯,從而得到兩者的關聯向量;分類網絡,用于基于標題特征向量、文檔向量以及關聯向量進行標題黨分類,本發明通過利用文檔標題與文檔內容之間的關聯信息,可取得更好的標題黨檢測效果。
技術領域
本發明涉及機器學習技術領域,特別是涉及一種基于層次混合網絡的標題黨文章檢測方法及聯邦學習策略。
背景技術
目前大多數互聯網媒體的收入依賴于用戶點擊量。由于競爭激烈,為吸引用戶的關注,某些媒體會在撰寫文章的時候會采用一個夸張而又引人注目的標題。而當用戶被標題吸引,點擊進去觀看文章內容時往往會大失所望。這種標題與內容有著較大落差的文章,稱為標題黨。
為減少標題黨的傳播,人們開始研究如何使用機器學習技術進行標題黨檢測。學術界及工業界的通用做法是將標題黨檢測處理成文本分類問題。其中大部分做法都是針對標題部分的文本,進行短文本分類。少數做法會考慮內容部分信息,與標題部分的文本綜合到一起,進行長文本分類。
而人類在進行標題黨審核時,往往會綜合考慮標題與內容之間的聯系。由此可見,在標題黨檢測任務上,標題與內容之間的關聯信息是十分重要的。而目前學術界及工業界的標題黨檢測做法中無一考慮到標題與內容的聯系。
目前常見的標題黨檢測做法是將其處理成文本分類任務。傳統的文本分類任務的做法是人工提取文本中的相關特征,然后將相應特征輸入到支持向量機,決策樹等分類器中進行分類。隨著深度學習的蓬勃發展,現今大部分文本分類任務的做法基于深度神經網絡,目前最先進的文本分類方法為基于多層注意力機制的雙向遞歸神經網絡的文檔分類方法,這種基于多層注意力機制的雙向遞歸神經網絡的文檔分類方法一般先利用帶有注意力機制的雙向遞歸神經網絡以詞為粒度(以相應的詞向量作為輸入),將一個句子編碼成向量;再類似地利用另一個帶有注意力機制的雙向遞歸神經網絡以句子為粒度(利用上述編碼的句子向量作為輸入),最終便將一篇文章編碼成一個向量。基于該文檔向量,再進行相關分類,由于基于多層注意力機制的雙向遞歸神經網絡的文檔分類方法的結構設計十分先進,其充分利用到了文檔的結構信息,故在大部分文檔分類任務中,該方法都取得了十分優異的效果。
由于人類在進行標題黨審核時,往往會綜合考慮標題與內容之間的聯系,由此可見,在標題黨檢測任務上,標題與內容的關聯信息是十分重要的。然而,基于多層注意力機制的雙向遞歸神經網絡的文檔分類方法雖然在大部分文檔分類任務上表現優異,但其在進行文檔分類時,并沒有利用到這部分重要的信息,而這也是基于多層注意力機制的雙向遞歸神經網絡的文檔分類方法的最大缺陷。
發明內容
為克服上述現有技術存在的不足,本發明之目的在于提供一種基于層次混合網絡的標題黨文章檢測方法及聯邦學習策略,以有效地利用到文檔標題與文檔內容之間的關聯信息,從而取得更好的標題黨檢測效果。
為達上述及其它目的,本發明提出一種基于層次混合網絡的標題黨文章檢測模型,包括:
標題編碼器,用于對文章標題進行特征提取,將文章標題文本有效地編碼成標題向量;
內容編碼器,用于對內容文本進行特征提取,將內容文本有效地編碼成文檔向量;
關聯信息提取器,用于使用機器閱讀理解相關技術,對所述標題向量及文檔向量進行關聯,從而得到兩者的關聯向量;
分類網絡,用于基于標題特征向量、文檔向量以及關聯向量進行標題黨分類,獲得預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811332621.4/2.html,轉載請聲明來源鉆瓜專利網。





