[發明專利]基于閱讀理解的漢越跨語言新聞事件要素抽取方法有效
| 申請號: | 202110743035.4 | 申請日: | 2021-07-01 |
| 公開(公告)號: | CN113626577B | 公開(公告)日: | 2022-11-01 |
| 發明(設計)人: | 余正濤;趙慶玨;朱恩昌;高盛祥;張勇丙 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F40/211;G06F40/30;G06K9/62 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 閱讀 理解 漢越跨 語言 新聞 事件 要素 抽取 方法 | ||
本發明涉及基于閱讀理解的漢越跨語言新聞事件要素抽取方法,屬于自然語言處理技術領域。本發明首先進行數據集的構建,然后訓練了一個新聞文本句子打分模型,來動態檢索出有可能包含答案的序列;同時對源語言和目標語言的訓練數據進行建模,從而實現源語言到目標語言的知識遷移,獲得新聞事件要素抽取結果,提高越南語新聞事件要素抽取的性能。本發明提出的基于閱讀理解的漢越跨語言新聞事件要素抽取方法在自建的漢越雙語新聞事件要素抽取數據集上的實驗證明了本文方法的有效性。
技術領域
本發明涉及基于閱讀理解的漢越跨語言新聞事件要素抽取方法,屬于自然語言處理技術領域。
背景技術
新聞事件要素抽取任務旨在抽取新聞文本中描述主題事件的事件要素,如時間、地點、人物和組織機構名等。新聞事件要素抽取是新聞事件抽取的重要子任務之一,是新聞文本相似度計算、新聞事件關聯關系分析以及事件檢索等下游任務的基礎。
跨語言事件要素抽取旨在聯合多語言訓練數據共同訓練事件要素抽取模型,以緩解目標語言事件要素標注語料稀缺的問題。目前,在事件要素抽取方面,基于端到端的神經網絡模型在有大規模標注數據的語種上取得了很好的效果,如英語和中文,但在只有少量或者無標注數據的小語種上的性能還有很大的提升空間;同時由于篇章級事件要素抽取需要捕獲長距離的語義信息,支持跨事件的關聯性分析,因此需要更強的語義理解和推斷能力。因此,本發明將閱讀理解的思想應用于新聞事件要素抽取任務,利用中文閱讀理解數據集預訓練源語言端的閱讀理解模型,然后利用mBERT(multilingual BERT)同時建模中文和越南語的關系,并融合兩種語言的表示來實現中文到越南語的跨語言知識遷移,完成資源稀缺型語言(越南語)新聞事件要素抽取。
發明內容
本發明提供了基于閱讀理解的漢越跨語言新聞事件要素抽取方法,以用于解決低資源情境下跨語言新聞事件要素抽取問題。
本發明的技術方案是:基于閱讀理解的漢越跨語言新聞事件要素抽取方法,所述基于閱讀理解的漢越跨語言新聞事件要素抽取方法的具體步驟如下:
Step1、實驗數據集構建:構建實驗所需要的數據集,數據集包含閱讀理解中文數據集、中文事件可比數據集(即和越南語描述的相同類型事件的中文新聞文本)和越南語新聞事件要素抽取數據集;
Step2、新聞文本關鍵句檢索模型構建:訓練了一個新聞文本句子打分模型,來動態檢索出有可能包含答案的序列;
Step3、新聞事件要素抽取模型構建:在Step2的基礎上,同時對源語言和目標語言的訓練數據進行建模,從而實現源語言到目標語言的知識遷移,獲得新聞事件要素抽取結果。
作為本發明的優選方案,所述Step1包括:
Step1.1、除了閱讀理解中文數據集采用CMRC 2018之外,到目前為止還沒有公開的漢越雙語新聞事件要素抽取數據集,因此首先在越南網站爬取了708篇越南新聞文本,并根據抽取式閱讀理解的形式進行標注;
Step1.2、然后根據預先定義的事件類型的關鍵詞爬取并篩選了932篇中文新聞,形成了中文事件可比數據集。
作為本發明的優選方案,所述Step2的具體步驟為:
Step2.1、切分新聞文本數據:使用Step1中的語料作為輸入,通過使用動態規劃算法將新聞長文本P切分成[X0,X1,…,XT-1];
Step2.2、檢索關鍵句子:訓練了一個評分模型,對新聞長文本中的句子序列[X0,X1,…,XT-1]進行評分,以實現動態地抽取出和問題高度相關的句子。
作為本發明的優選方案,所述Step2.2的具體步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110743035.4/2.html,轉載請聲明來源鉆瓜專利網。





