[發明專利]基于中文觸發詞指導的越南語新聞事件檢測方法有效
| 申請號: | 202011108823.8 | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112580330B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 高盛祥;寇夢珂;余正濤;王振晗;朱俊國;朱恩昌 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/30;G06F16/33;G06F16/35;G06N3/0442;G06N3/049;G06N3/08 |
| 代理公司: | 昆明隆合知識產權代理事務所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 中文 觸發 指導 越南語 新聞 事件 檢測 方法 | ||
本發明涉及基于中文觸發詞指導的越南語新聞事件檢測方法,屬于自然語言處理技術領域。本發明首先采用對抗學習的方法將兩種語言映射到同一語義空間下,然后在編碼過程中融入實體信息,通過注意力機制將映射后的中文觸發詞嵌入指導模型關注越南語新聞中的觸發詞信息,最后利用得到的觸發詞信息進行事件類型的多分類,進而實現越南語新聞事件檢測。本發明目前事件檢測需要識別新聞中的觸發詞,目前沒有越南語觸發詞標記語料,使用豐富的中文標記語料可以解決越南語標記語料缺失的問題。
技術領域
本發明涉及基于中文觸發詞指導的越南語新聞事件檢測方法,屬于自然語言處理技術領域。
背景技術
事件檢測是當前自然語言處理研究的熱點問題。觸發詞的識別在事件檢測任務中起著至關重要的作用。目前越南語數據稀缺,并且越南語沒有觸發詞標記數據,檢測出越南語新聞中的事件比較困難。因此,根據表達相同觀點但用不同語言表達的句子通常有相同或相似的語義成分這一特征,使用豐富的中文觸發詞標記解決越南語觸發詞標記缺失問題具有重要意義。
發明內容
本發明提供了基于中文觸發詞指導的越南語新聞事件檢測方法,以用于解決目前越南語數據稀缺,沒有越南語觸發詞標記語料問題,以及解決了不同語言文本很難表示在同一特征空間下等問題。
本發明的技術方案是:基于中文觸發詞指導的越南語新聞事件檢測方法,所述基于中文觸發詞指導的越南語新聞事件檢測方法的具體步驟如下:
Step1、收集用于中越雙語相關新聞事件檢測的新聞文本,對新聞文本進行去重與篩選;
Step2、對中越新聞文本進行分詞,實體標注等預處理,標注中越雙語新聞文本中的事件類型以及中文觸發詞,將標記好的越南語新聞語料分為訓練語料、測試語料和驗證語料;
Step3、采用對抗學習的方法將中越兩種語言映射到同一語義空間下,抽取出映射后的中文觸發詞詞向量;
Step4、獲取越南語詞向量融合句中實體向量作為BiLSTM層的輸入;采用BiLSTM獲取越南語新聞句的語義信息,通過注意力機制將映射后的中文觸發詞指導模型找到越南語句子中的觸發詞信息;
Step5、最后利用得到的觸發詞信息進行事件類型的多分類,進而實現越南語新聞事件檢測。
作為本發明的進一步方案,所述Step1中,使用Scrapy作為爬取工具,模仿用戶操作,為中文、越南語新聞網站定制不同的模板,根據頁面數據元素的XPath路徑制定模板獲取詳細數據,獲取新聞標題、新聞時間、新聞正文數據。
作為本發明的進一步方案,所述步驟Step2的具體步驟為:
Step2.1、參考ACE的事件標注體系標記出中文新聞文本中的觸發詞和事件類型、越南語新聞文本中的事件類型,將事件類型分為七種類型,分別為和關系;
Step2.2、再將實驗數據分為訓練語料、測試語料和驗證語料。
作為本發明的進一步方案,所述步驟Step3的具體步驟:
Step3.1、采用skip-gram擴展模型的方法預測目標詞在中文中的上下文信息,同時預測目標詞在越南語中對齊詞的上下文信息,從而得到中越雙語詞向量;
Step3.2、使用映射函數將中文投影到與越南語相同的語義空間中,使用隨機梯度下降的方法依次訓練單詞鑒別器和映射函數;
Step3.3、給定中文新聞文本并標記句子中的觸發詞。
作為本發明的進一步方案,所述步驟Step4采用BiLSTM獲取越南語新聞的語義信息的具體步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011108823.8/2.html,轉載請聲明來源鉆瓜專利網。





