[發明專利]融入篇章語義的涉案新聞要素實體識別方法及系統有效
| 申請號: | 202110023176.9 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112685549B | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 線巖團;王佳雯;王劍;余正濤;郭軍軍;相艷 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/33;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融入 篇章 語義 涉案 新聞 要素 實體 識別 方法 系統 | ||
1.一種融入篇章語義的涉案新聞要素實體識別方法,其特征在于:所述方法的具體步驟如下:
Step1、首先從涉案新聞的首段刪減得到新聞中心句,再對獲得的新聞正文句和新聞中心句進行分字標注,最后構建標注后的新聞正文句和新聞中心句一一對應的字典;
Step2、使用Skip-gram模型將新聞中心句和新聞正文句轉換成字符向量;
Step3、構建融入篇章語義的涉案新聞要素實體識別模型,實現有效抽取涉案新聞要素實體的功能;
所述步驟Step3的具體步驟包括:
Step3.1、融入篇章語義的涉案新聞要素實體識別模型分別有兩個輸入,一個是新聞正文句,另一個是新聞中心句;采用Multi-Head Attention學習篇章語義表示并從不同維度將新聞中心句融入到新聞正文句中,得到融入篇章語義的多層次語義特征;
Step3.2、在獲得融入篇章語義的多層次語義特征之后,采用Bi-LSTM提取融入篇章語義的上下文語義特征;
Step3.3、采用條件隨機場對融入了篇章語義特征的Bi-LSTM輸出進行約束性解碼,識別句子中的要素實體,構建融入篇章語義的涉案新聞要素實體識別模型。
2.根據權利要求1所述的融入篇章語義的涉案新聞要素實體識別方法,其特征在于:所述步驟Step1的具體步驟為:
Step1.1、首先利用網絡爬蟲程序,從中國新聞網大案要案模塊上爬取涉案新聞語料;
Step1.2、對已爬取出的涉案新聞語料,經過過濾、去噪處理、構建出涉案新聞文本級語料;并把涉案新聞文本級語料存放到數據庫中;
Step1.3、從Step1.2數據庫中取出涉案新聞文本級語料,經過分句處理形成涉案新聞正文句子級語料,并人工對涉案新聞文本首段進行刪減得到新聞中心句,對涉案新聞中心句和新聞正文句進行分字,形成含涉案新聞正文句子級語料庫,并把涉案新聞正文句子級語料庫的語料存放到數據庫中;
Step1.4、從Step1.3數據庫中取出涉案新聞正文句子級語料,人工根據BIEOS標簽對涉案新聞正文句子級語料進行類別標注,涉案新聞要素實體類別進行分類,形成含有新聞中心句的涉案新聞標注語料,將新聞中心句與新聞正文句一一對應。
3.根據權利要求1所述的融入篇章語義的涉案新聞要素實體識別方法,其特征在于:所述步驟Step2的具體步驟為:
Step2.1、首先使用Skip-gram模型將涉案新聞語料轉換成字符向量,構成字符向量表,新聞正文句和新聞中心句中的每個字通過查找字向量表轉化為字符向量序列。
4.一種融入篇章語義的涉案新聞要素實體識別系統,其特征在于,包括用于執行如權利要求1-3任一項權利要求所述的方法的模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110023176.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:探入式簡易半自動化焊接裝置
- 下一篇:一種防纏繞的海藻檢測用清洗干燥裝置





