[發明專利]基于融合主題信息增強PU學習的事件相關新聞過濾的學習方法有效
| 申請號: | 202110347488.5 | 申請日: | 2021-03-31 |
| 公開(公告)號: | CN113641888B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 余正濤;王冠文;線巖團;張玉;黃于欣 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F40/30;G06F16/35;G06N3/0442;G06N3/0455;G06N3/0499;G06N3/088 |
| 代理公司: | 昆明隆合知識產權代理事務所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 融合 主題 信息 增強 pu 學習 事件 相關 新聞 過濾 學習方法 | ||
1.基于融入主題信息增強PU學習的事件相關新聞過濾的學習方法,其特征在于:所述方法的具體步驟如下:
Step1、訓練分類器,同時加入無監督主題模型進行增強;
Step2、將未標注數據通過訓練的分類器模型進行預測,再將對未標注新聞的預測結果進行概率由高到低的排序;
所述步驟Step2的具體步驟為:
Step2.1、將數據集中剩余的未標注數據樣本通過分類器和主題模型進行類別的概率預測;預測結果是新聞屬于事件相關新聞的概率值;
Step2.2、將對未標注新聞的預測結果進行概率由高到低的排序,每次預測都會按照一定的迭代步幅獲取到概率靠前的數據作為可靠事件相關新聞樣本和概率靠后的數據作為可靠負樣本,并將這些樣本從未標注樣本中剔除,加入到訓練數據中,用以進行后續的迭代訓練過程;
Step3、初次的訓練和預測過程完成后,進行PU學習的迭代,即在新得到的訓練集上重新訓練分類器并重復整個預測和訓練過程;
Step4、將所有的樣本放入分類器進行訓練,得到所需要的事件相關新聞分類模型,基于事件相關新聞分類模型過濾出所需的事件相關新聞;
所述步驟Step1包括:
使用I-DNF算法進行非事件相關新聞數據提取,獲取到和初始事件相關新聞相同規模的反例,來訓練初始分類器,并加入無監督主題模型VAE進行增強;
其中,使用Embedding和雙向長短期記憶網絡BiLSTM的網絡結構作為分類器;
首先使用Embedding網絡層對輸入文本進行詞嵌入,得到詞嵌入向量其中n表示新聞文本長度,v為詞向量維度;此外,將輸入文本再通過VAE主題模型,得到新聞文本的主題向量其中m為預設主題個數,得到兩種編碼信息;
使用新聞文本的主題向量來對詞嵌入向量X進行指導;由于主題模型獲取到的主題向量是形狀為1*m的向量,將其復制n份,分別拼接到詞嵌入向量X后,形成的新矩陣X'就是融入主題向量的新聞編碼向量:
融入主題信息后的新聞編碼向量通過雙向長短期記憶網絡層BiLSTM來對其上下文關系進行建模,得到新聞語義表征向量,具體公式如下所示:
其中H為BiLSTM編碼后的句子向量,q是BiLSTM的隱含層維數,y表示最終的概率輸出。
2.根據權利要求1所述的基于融入主題信息增強PU學習的事件相關新聞過濾的學習方法,其特征在于:所述獲取到和初始事件相關新聞相同規模的反例的具體步驟如下:
Step1.1.1、一個文本特征在正例集合中出現頻率大于90%,而其在未標識集合出現的頻率僅有10%,就把這樣的特征當成正例的特征;
Step1.1.2、通過特征在正例集合和未標識集合中出現的頻率不同,建立一個正例特征集合;
Step1.1.3、未標識集合U中的樣例文檔未包含任何正例特征集合中的特征的,就把它從未標識集合U中抽取出來,標識成反例。
3.根據權利要求1所述的基于融入主題信息增強PU學習的事件相關新聞過濾的學習方法,其特征在于:所述步驟Step3的具體步驟為:
Step3.1完成初次的訓練和預測過程后,在新得到的訓練集上重新訓練分類器并重復整個預測和訓練過程;
Step3.2、每次迭代完成后,未標注數據的數量會隨之減少而訓練集的數量隨之增加,當未標注數據被完全預測為可靠樣本后,結束迭代過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110347488.5/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





