[發明專利]基于DMCNN的特殊事件提取系統有效
| 申請號: | 201911312367.6 | 申請日: | 2019-12-18 |
| 公開(公告)號: | CN111078886B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 陳澤勇;張治同;姚松;張莉 | 申請(專利權)人: | 成都迪普曼林信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289 |
| 代理公司: | 成都金英專利代理事務所(普通合伙) 51218 | 代理人: | 袁英 |
| 地址: | 610000 四川省成都市武侯區科華北路65*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 dmcnn 特殊 事件 提取 系統 | ||
本發明提出了基于DMCNN的特殊事件提取系統,包括文本數據輸入模塊,輸入新聞報道、廣播稿的文本數據;文本數據預處理模塊,用于單詞嵌入預訓練并對文本文檔進行向量化處理;殊事件提取執行模塊,用于從文檔向量中根據事件參數提取特殊事件;結果輸出模塊,根據特殊事件提取結果輸出文件;通過分類器,將對事件的提取機制轉變為一個文本分類問題,對事件參數的提取比轉化為一個在文本分類基礎上的一個分類的屬性信息的提取;本發明使用無監督的預訓練詞嵌入作為基本特征的來源,可提取到更有價值的線索,且準確率更高,可通過web服務系統完成大量用戶并發使用BERT模型完成單詞嵌入預訓練,解決并發訪問擁塞問題。
技術領域
本發明涉及文本信息提取技術領域,尤其涉及基于DMCNN的特殊事件提取系統。
背景技術
傳統的特殊事件提取依賴人工設計的特征和復雜的NLP工具;需要大量的人力成本,而且會產生誤差傳播以及數據稀疏問題;自動地抽取文本級別的以及句子級別的特征,雖然不需要使用復雜的NLP工具,可以一個單詞表示模型來描述有意義的語義規律,并采用一個基于卷積神經網絡的框架來描述句子級別的線索;然而,CNN僅僅能描述句子中最重要的信息,當考慮多事件句子的時候可能丟失掉有價值的事實和線索。
現有BERT模型規模很大,運行時間相對較長,如果多個用戶同時使用BERT模型,則可能會出現堵塞現象,如果直接調用該模型以完成單詞嵌入預訓練,是無法高效的同時為多個任務請求服務的。
發明內容
本發明的目的在于,針對上述問題,提出基于DMCNN的特殊事件提取系統,用于從新聞報道文本中提取特殊事件信息,包括:
文本數據輸入模塊,輸入新聞報道、廣播稿的文本數據;
文本數據預處理模塊,用于單詞嵌入預訓練并對文本文檔進行向量化處理;
特殊事件提取執行模塊,用于從文檔向量中根據事件參數提取特殊事件;
結果輸出模塊,根據特殊事件提取結果輸出文件。
進一步的,所述文本數據預處理模塊包括預訓練模塊和向量化處理模塊;
所述預訓練模塊通過word2vector模型或BERT模型進行單詞嵌入預訓練得到特定語料的向量表示;
所述向量化處理模塊根據特定語料的向量表示將文本數據對應的文本文檔進行向量化處理得到word2vector詞向量和BERT詞向量。
進一步的,所述預訓練模塊用于對文本文檔進行分詞和去除停用詞處理。
進一步的,所述word2vector詞向量為文本文檔每個單詞或短語的向量表示,將詞向量向句子向量空間和文檔向量空間進行擴展獲得文檔向量;所述向量空間的擴展包括向量疊加后求平均。
進一步的,所述BERT模型通過注意力機制和transform機制對特定語料訓練后得到的文本文檔每個單詞或短語的向量表示。
進一步的,所述系統基于DOCKER容器技術為BERT模型搭建容器級別的WEB服務以形成WEB服務層,所述WEB服務層以http接口形式滿足多用戶并發使用BERT模型的需要。
進一步的,所述特殊事件提取執行模塊設置有一個分類器,所述分類器用于進行參數分類和計算每個事件參數角色的置信度;所述參數角色為事件與參數之間的關系。
進一步的,所述分類器將對事件的提取機制轉變為一個文本分類問題,對事件參數的提取轉化為在文本分類基礎上的分類的屬性信息的提取。
進一步的,所述參數分類根據事件觸發器分類進行,所述事件觸發器為最能清楚表達事件發生的一個詞,所述觸發器分類和參數分類構成事件提取的框架。
進一步的,所述系統還包括效果評估模塊,所述效果評估模塊對輸出結果進行評估。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都迪普曼林信息技術有限公司,未經成都迪普曼林信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911312367.6/2.html,轉載請聲明來源鉆瓜專利網。





