[發明專利]一種基于XLNet的新聞文本地域提取的方法及系統有效
| 申請號: | 202011009623.7 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN111967267B | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 童逸琦;馬濤;倪斌;汪姿如;莊福振 | 申請(專利權)人: | 中科(廈門)數據智能研究院 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/289;G06F16/951;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 廈門致群財富專利代理事務所(普通合伙) 35224 | 代理人: | 劉兆慶 |
| 地址: | 361000 福建省*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 xlnet 新聞 文本 地域 提取 方法 系統 | ||
本發明公開了一種基于XLNet的新聞文本地域提取的方法及系統,其方法包括如下步驟:S1、利用互聯網上獲取海量未標注生語料,輸入XLNet預訓練模型中進行預訓練;S2、將預處理后的數據輸入到步驟S1預訓練好的XLNet預訓練模型中進行編碼,將編碼后的隱狀態輸入到BiLSTM+CRF模型中進行識別,輸出識別后的地域實體;S3、地域實體消歧;S4、地域實體匯總;S5、地域主體補全操作;其系統包括地域實體識別模塊、實體拼接模塊、地域消歧義模塊和地域匯總模塊,地域實體識別模塊由XLNet預訓練模型和BiLSTM+CRF模型組成。本發明的二階段訓練過程克服了現有技術存在的預訓練階段和訓練階段存在使用模式不一致的問題,解決了傳統的自回歸模型無法同時學習上下文信息的痛點,實現了完整建模。
技術領域
本發明涉及計算機技術領域,特別涉及一種基于XLNet的新聞文本地域提取的方法及系統。
背景技術
新聞文本的地域屬性蘊含了新聞事件發生的地點,是對新聞事件進行統計、分析的重要參考維度,因此利用計算機實現對新聞文本地域的自動抽取,對下游任務如推薦系統、輿情分析、文本摘要等具有非常重要的推動作用。目前主流的地域提取方法包括機器學習方法和深度學習方法,這兩種方法都需要人工標注的地域實體數據集進行訓練。
BERT+BiLSTM+CRF模型就是(雙向轉換的編碼預訓練模型+雙向長短期記憶網絡+條件隨機場模型)深度學習方法中的一種,但BERT模型存在如下缺點:1、預訓練階段采用引入遮掩標記來遮掩15%的詞,但在訓練階段不含有這些被加入遮掩標記的詞,導致預訓練階段和訓練階段存在使用模式不一致的情況;2、在預訓練階段,隨機遮掩的15%詞之間是條件獨立的,不存在關聯,但自然語言的詞之間有些是存在關聯的,導致模型的性能損失,無法同時學習上下文信息;3、只能對固定長度的文本序列進行建模,而新聞文本通常是長文本序列,導致無法對其進行完整建模。
發明內容
為解決上述問題,本發明提供了一種基于XLNet的新聞文本地域提取的方法及系統。
本發明采用以下技術方案:
一種基于XLNet的新聞文本地域提取的方法,包括如下步驟:
S1、預訓練:利用爬蟲技術從互聯網上獲取海量未標注生語料,對所述未標注生語料進行去噪聲和預處理操作后,輸入XLNet預訓練模型中進行預訓練;
S2、訓練:a、在BIOES標注框架下,人工標注形成帶標簽的中文新聞文本地域語料庫用作模型訓練語料,b、對所述模型訓練語料進行通用的數據預處理流程,c、將預處理后的數據輸入到所述步驟S1預訓練好的XLNet預訓練模型中進行編碼,d、將編碼后的隱狀態輸入到BiLSTM+CRF模型中進行識別,輸出層輸出識別后的地域實體;
S3、地域實體消歧:構建省/市二級同一地名知識庫,將所述地域實體與所述知識庫進行匹配映射,進行消歧;
S4、地域實體匯總:a、統計所述地域實體的長度、在文本中出現的次數以及位置,并將這三個統計信息通過非線性變換分別轉換成人工特征,b、采用成對比較法,利用所述人工特征構建特征矩陣,c、計算所述特征矩陣的主特征向量,所述主特征向量上每一維的值對應著所述地域實體的主地域權重,d、對所述主地域權重進行歸一化指數函數操作,并按照所述主地域權重大小降序排序,僅保留前3個權重最大的地域實體;
S5、補全:利用爬蟲技術爬取中國的行政區劃信息,構建省/市/縣(區)三級的中國地域知識庫,對所述步驟S4所得的前3個權重最大的地域實體進行補全操作,所述補全操作采用最大匹配算法。
進一步地,步驟S2中的所述人工標注的方法為:B代表地域的開始,I代表地域的中間,E代表地域的結尾,S代表單個字符,O代表無關字符。
進一步地,所述步驟S2還包括:e、地域拼接:利用所述地域實體在文本中的位置,采用地域拼接算法對地域主體信息進行拼接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科(廈門)數據智能研究院,未經中科(廈門)數據智能研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011009623.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:層間檢測裝置及其使用方法
- 下一篇:一種摩擦式控制棒驅動機構及方法





