[發明專利]一種基于XLNet的新聞文本地域提取的方法及系統有效
| 申請號: | 202011009623.7 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN111967267B | 公開(公告)日: | 2022-06-21 |
| 發明(設計)人: | 童逸琦;馬濤;倪斌;汪姿如;莊福振 | 申請(專利權)人: | 中科(廈門)數據智能研究院 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/289;G06F16/951;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 廈門致群財富專利代理事務所(普通合伙) 35224 | 代理人: | 劉兆慶 |
| 地址: | 361000 福建省*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 xlnet 新聞 文本 地域 提取 方法 系統 | ||
1.一種基于XLNet的新聞文本地域提取的方法,其特征在于:包括如下步驟:
S1、預訓練:利用爬蟲技術從互聯網上獲取未標注生語料,對所述未標注生語料進行去噪聲和預處理操作后,輸入XLNet預訓練模型中進行預訓練;
所述XLNet預訓練模型中包含了排列語言模型,所述排列語言模型將文本句子的單詞隨機打亂順序,設長度為T的文本序列[1,2,...,T]的所有排列組合集合為ZT,設zt為文本序列中的第t個元素,z<t表示所有排列組合集合ZT的其中一種排列組合情況的前t-1個元素,則排列語言模型對文本序列的建模過程表示成:
其中,θ為待訓練的模型參數;
S2、訓練:a、在BIOES標注框架下,人工標注形成帶標簽的中文新聞文本地域語料庫用作模型訓練語料,b、對所述模型訓練語料進行通用的數據預處理流程,c、將預處理后的數據輸入到所述步驟S1預訓練好的XLNet預訓練模型中進行編碼,d、將編碼后的隱狀態輸入到BiLSTM+CRF模型中進行識別,輸出層輸出識別后的地域實體;
S3、地域實體消歧:構建省/市二級同一地名知識庫,將所述地域實體與所述知識庫進行匹配映射,進行消歧;
S4、地域實體匯總:a、統計所述地域實體的長度、在文本中出現的次數以及位置,并將這三個統計信息通過非線性變換分別轉換成人工特征,b、采用成對比較法,利用所述人工特征構建特征矩陣,c、計算所述特征矩陣的主特征向量,所述主特征向量上每一維的值對應著所述地域實體的主地域權重,d、對所述主地域權重進行歸一化指數函數操作,并按照所述主地域權重大小降序排序,僅保留前3個權重最大的地域實體;
S5、補全:利用爬蟲技術爬取中國的行政區劃信息,構建省/市/縣或區三級的中國地域知識庫,對所述步驟S4所得的前3個權重最大的地域實體進行補全操作,所述補全操作采用最大匹配算法。
2.如權利要求1所述的一種基于XLNet的新聞文本地域提取的方法,其特征在于:步驟S2中的所述人工標注的方法為:B代表地域的開始,I代表地域的中間,E代表地域的結尾,S代表單個字符,O代表無關字符。
3.如權利要求1所述的一種基于XLNet的新聞文本地域提取的方法,其特征在于:所述步驟S2還包括:e、地域拼接:利用所述地域實體在文本中的位置,采用地域拼接算法對地域主體信息進行拼接。
4.如權利要求1所述的一種基于XLNet的新聞文本地域提取的方法,其特征在于:所述XLNet預訓練模型采用了雙流注意力機制。
5.如權利要求1所述的一種基于XLNet的新聞文本地域提取的方法,其特征在于:所述BiLSTM+CRF模型采用隨機梯度下降算法迭代優化模型的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科(廈門)數據智能研究院,未經中科(廈門)數據智能研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011009623.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:層間檢測裝置及其使用方法
- 下一篇:一種摩擦式控制棒驅動機構及方法





