[發明專利]基于閱讀理解的漢越跨語言新聞事件要素抽取方法有效
| 申請號: | 202110743035.4 | 申請日: | 2021-07-01 |
| 公開(公告)號: | CN113626577B | 公開(公告)日: | 2022-11-01 |
| 發明(設計)人: | 余正濤;趙慶玨;朱恩昌;高盛祥;張勇丙 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F40/211;G06F40/30;G06K9/62 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 閱讀 理解 漢越跨 語言 新聞 事件 要素 抽取 方法 | ||
1.基于閱讀理解的漢越跨語言新聞事件要素抽取方法,其特征在于:所述方法的具體步驟如下:
Step1、實驗數據集構建:構建實驗所需要的數據集,數據集包含閱讀理解中文數據集、中文事件可比數據集和越南語新聞事件要素抽取數據集;
Step2、新聞文本關鍵句檢索模型構建:訓練了一個新聞文本句子打分模型,來動態檢索出有可能包含答案的序列;
Step3、新聞事件要素抽取模型構建:在Step2的基礎上,同時對源語言和目標語言的訓練數據進行建模,從而實現源語言到目標語言的知識遷移,獲得新聞事件要素抽取結果;
所述Step3的具體步驟為:
Step3.1、問題生成:將所有的語義角色劃分為不同的類別,與時間相關的語義角色、與地點相關的語義角色、與人物相關的語義角色、與組織機構相關的語義角色,然后為每個類別設計不同的問題模板;
Step3.2、雙語編碼器進行編碼:利用mBERT對源語言和目標語言進行編碼,提取新聞文本特征;
Step3.3、雙語解碼器進行解碼:利用多頭注意力機制來提取源語言知識,以提高目標語言答案抽取性能;
Step3.4、新聞事件要素過濾層進行過濾:通過啟發式規則來過濾非法答案,得到新聞事件要素集;
所述步驟Step3.2的具體步驟為:
使用mBERT對中文和越南語的問題Q和新聞文本的關鍵子序列Z進行編碼;給定越南語的問題QT和關鍵子序列ZT,使用特殊字符[CLS]和[SEP]拼接成PT輸入到mBERT;
相應地將中文問題QS和關鍵子序列ZS拼接成PS輸入到mBERT中;PT和PS經過編碼后分別得到隱層表示其中L表示輸入關鍵文本的長度,h表示mBERT的隱層大小。
2.根據權利要求1所述的基于閱讀理解的漢越跨語言新聞事件要素抽取方法,其特征在于:所述Step1包括:
Step1.1、閱讀理解中文數據集采用CMRC 2018;在越南網站爬取了708篇越南新聞文本,并根據抽取式閱讀理解的形式進行標注;
Step1.2、然后根據預先定義的事件類型的關鍵詞爬取并篩選了932篇中文新聞,形成了中文事件可比數據集。
3.根據權利要求1所述的基于閱讀理解的漢越跨語言新聞事件要素抽取方法,其特征在于:所述Step2的具體步驟為:
Step2.1、切分新聞文本數據:使用Step1中的語料作為輸入,通過使用動態規劃算法將新聞長文本P切分成[X0,X1,…,XT-1];
Step2.2、檢索關鍵句子:訓練了一個新聞文本句子打分模型,對新聞長文本中的句子序列[X0,X1,…,XT-1]進行評分,以實現動態地抽取出和問題高度相關的句子。
4.根據權利要求3所述的基于閱讀理解的漢越跨語言新聞事件要素抽取方法,其特征在于:所述Step2.2的具體步驟為:
Step2.2.1、給定一個問題Q={q1,q2,…,qn},其中n表示問題中序列長度;將打分模型的輸入初始化;
Step2.2.2、訓練一個基于mBERT的一個評分模型,對每個子序列進行評分將得分最高的子序列加到關鍵子序列中;經過多次迭代推理最終得到新聞長文本的關鍵子序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110743035.4/1.html,轉載請聲明來源鉆瓜專利網。





