[發明專利]一種新事件主題提取方法有效
| 申請號: | 202010541567.5 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111597328B | 公開(公告)日: | 2022-10-18 |
| 發明(設計)人: | 云紅艷;賀英;張秀華;李正民 | 申請(專利權)人: | 青島大學 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/33;G06F40/242;G06F40/258;G06F40/289;G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 青島高曉專利事務所(普通合伙) 37104 | 代理人: | 于正河 |
| 地址: | 266000 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 事件 主題 提取 方法 | ||
1.一種新事件主題提取方法,其特征在于包括以下步驟:
步驟1:根據事件關鍵詞獲取新聞事件文本數據流,根據獲取的新聞事件文本數據流,構建新聞事件文本數據集,文本中的每一條記錄包括新聞文本的事件類型標簽以及事件的具體文本描述,并將新聞事件文本數據集劃分訓練集Train、驗證集Val和測試集Test;
步驟2:對步驟1劃分的訓練集Train、驗證集Val和測試集Test,以BERT表示模型為基礎進行文本的向量化,輸出高維稠密向量表示,得到新聞事件文本數據集的高維稠密向量表示,其中BERT表示模型的模型層數為12,隱藏大小為768,注意力頭為12;
步驟3:將步驟2獲得的新聞事件文本數據集的高維稠密向量表示作為輸入,根據訓練集Train、驗證集Val,采用Xavier進行神經網絡參數初始化,采用dropout策略以梯度下降的方法作為神經網絡參數及輸入特征向量的更新,得到新事件發現模型;
步驟4:設置新事件發現模型的閾值,如果識別結果大于這一閾值,則判定此事件屬于已知新聞事件類型并給出事件的主題;如果預測結果閾值小于設定的閾值則判定此事件為新事件,對判定為新事件的新聞文本進行整合存儲得到新事件文本數據集;
步驟5:對步驟4獲得的新事件文本數據集中包含的無用信息進行去除操作,保留新聞事件文本對新聞事件的描述內容,并采用結巴中文分詞工具進行分詞后建立自定義詞典提高分詞的精度;其中無用信息包括特殊字符、停用詞沒有實質價值的標記;
步驟6:對步驟5得到的預處理后的新事件文本數據集提取實體特征和LDA主題熱詞特征后與原文進行詞級拼接形成新的新聞文本描述,并對實體特征和LDA主題熱詞特征通過對特征增加詞頻的方式進行加權表示;其中實體特征包括人物實體特征、地點實體特征和組織名實體特征;
步驟7:對于步驟6處理后的新聞文本數據集,計算每個詞的詞頻/逆文檔率,用以衡量每個詞相對于當前主題的重要度,并根據計算結果為每個詞賦予相應的權重值;
步驟8:根據步驟6、7獲得的特征及其權重值,利用Kmeans算法對步驟7得到的新事件文本數據集按多個事件進行聚類,并對新事件進行主題建模分析;將主題建模分析結果結合詞頻/逆文檔率對新事件文本集的表示,對每個事件抽取十個關鍵詞作為新事件的主題詞,完成新事件主題的提取。
2.根據權利要求1所述新事件主題提取方法,其特征在于所述步驟1具體包含以下步驟:
步驟1.1:根據新聞事件文本數據獲取需求,確定具體新聞事件的關鍵詞;
步驟1.2:對于確定的新聞事件關鍵詞,構建以Scrapy框架為基礎通過百度搜索引擎獲取新聞事件文本數據鏈接的數據爬蟲系統,獲取新聞事件文本數據流;
步驟1.3:對于獲取的新聞事件文本數據流對文本內容進行規范化操作,去除包括空格的無效內容,對剩余有效內容進行拼接處理形成一條記錄為一條新聞文本的規范化表示形成新聞事件文本集;
步驟1.4:對于步驟1.3得到的新聞事件文本集,按照7:2:1的比例劃分訓練集Train、驗證集Val和測試集Test。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島大學,未經青島大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010541567.5/1.html,轉載請聲明來源鉆瓜專利網。





