[發明專利]基于中文觸發詞指導的越南語新聞事件檢測方法有效
| 申請號: | 202011108823.8 | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112580330B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 高盛祥;寇夢珂;余正濤;王振晗;朱俊國;朱恩昌 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/30;G06F16/33;G06F16/35;G06N3/0442;G06N3/049;G06N3/08 |
| 代理公司: | 昆明隆合知識產權代理事務所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 中文 觸發 指導 越南語 新聞 事件 檢測 方法 | ||
1.基于中文觸發詞指導的越南語新聞事件檢測方法,其特征在于,包括如下:
Step1、收集用于中越雙語相關新聞事件檢測的新聞文本,對新聞文本進行去重與篩選;
Step2、對中越新聞文本進行分詞,實體標注預處理,標注中越雙語新聞文本中的事件類型以及中文觸發詞,將標記好的越南語新聞語料分為訓練語料、測試語料和驗證語料;
Step3、采用對抗學習的方法將中越兩種語言映射到同一語義空間下,抽取出映射后的中文觸發詞詞向量;
Step4、獲取越南語詞向量融合句中實體向量作為BiLSTM層的輸入;采用BiLSTM獲取越南語新聞句的語義信息,通過注意力機制將映射后的中文觸發詞指導模型找到越南語句子中的觸發詞信息;
Step5、最后利用得到的觸發詞信息進行事件類型的多分類,進而實現越南語新聞事件檢測;
所述步驟Step3的具體步驟:
Step3.1、采用skip-gram擴展模型的方法預測目標詞在中文中的上下文信息,同時預測目標詞在越南語中對齊詞的上下文信息,從而得到中越雙語詞向量;
Step3.2、使用映射函數將中文投影到與越南語相同的語義空間中,使用隨機梯度下降的方法依次訓練單詞鑒別器和映射函數;
Step3.3、給定中文新聞文本并標記句子中的觸發詞;
所述步驟Step4采用BiLSTM獲取越南語新聞的語義信息的具體步驟為:
Step4.1、在越南語語料上預訓練越南語詞向量,得到詞向量詞表,利用underthesea工具中的實體標記類型為每種實體標記都隨機初始化一個實體向量,得到實體向量詞表,通過查找詞向量詞表和實體向量詞表,所有的輸入單詞和實體標記都轉化為低維向量;
Step4.2、將詞向量和實體向量拼接起來作為BiLSTM的輸入,用來捕獲句子中的語義信息。
2.根據權利要求1所述的基于中文觸發詞指導的越南語新聞事件檢測方法,其特征在于:所述Step1中,使用Scrapy作為爬取工具,模仿用戶操作,為中文、越南語新聞網站定制不同的模板,根據頁面數據元素的XPath路徑制定模板獲取詳細數據,獲取新聞標題、新聞時間、新聞正文數據。
3.根據權利要求1所述的基于中文觸發詞指導的越南語新聞事件檢測方法,其特征在于:所述步驟Step2的具體步驟為:
Step2.1、參考ACE的事件標注體系標記出中文新聞文本中的觸發詞和事件類型、越南語新聞文本中的事件類型,將事件類型分為七種類型,分別為“chuy?n?th?m”、“G?p”和“Ti?p?xúc”、“Thu?c?kinh?t?”、“Thay???i”、“Giao?d?ch”、“Cu?c?xung???t”關系;
Step2.2、再將實驗數據分為訓練語料、測試語料和驗證語料。
4.根據權利要求1所述的基于中文觸發詞指導的越南語新聞事件檢測方法,其特征在于:所述步驟Step5的具體步驟為:將提取到的越南語句子中的觸發詞輸入至分類層,采用softmax分類器對越南語新聞句進行事件類型的分類,從而實現越南語新聞事件檢測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011108823.8/1.html,轉載請聲明來源鉆瓜專利網。





