[發明專利]英文文本序列標注方法、系統及計算機設備有效
| 申請號: | 201910871720.8 | 申請日: | 2019-09-16 |
| 公開(公告)號: | CN110750965B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 孫超;于鳳英;王健宗;韓茂琨 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/169 | 分類號: | G06F40/169;G06F40/117;G06N3/0442;G06N3/08 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 王勇 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 英文 文本 序列 標注 方法 系統 計算機 設備 | ||
1.一種基于神經網絡的英文文本序列標注方法,其特征在于,所述方法包括:
提取目標句子的單詞信息、字符信息和形態特征,并根據所述單詞信息、字符信息和形態特征輸入到第一BI-LSTM層和第一dropout層以得到第一輸出矩陣
通過字符嵌入層獲取目標句子的字符矩陣I(k×m)×1,通過第二詞嵌入層將字符矩陣I(k×m)×1轉化為k×m×d維的矩陣,并將k×m×d維的矩陣輸入到第二BI-LSTM層中,通過所述第二BI-LSTM層得到第四矩陣并將第四矩陣輸入到第二dropout層以得到第二輸出矩陣
提取目標句子的語義信息和基于卷積層提取的二元信息,并將所述語義信息輸入到第三BI-LSTM層和第三dropout層以得到第三輸出矩陣以及將二元信息輸入到第四BI-LSTM層和第四dropout層以得到第四輸出矩陣
將第一輸出矩陣第二輸出矩陣第三輸出矩陣和第四輸出矩陣進行線性相加,得到線性相加結果ωi為對應的權重系數;
將線性相加結果O輸入第二LSTM層在每個時間步記錄輸出以得到第五輸出矩陣i為各個單詞在目標句子中序號,z為輸入第二LSTM層的輸入維度;
將第五輸出矩陣作為條件隨機場CRF的輸入序列,以通過CRF輸出標簽序列Y=(y1,y2,...,ym);
其中,提取目標句子的單詞信息、字符信息和形態特征,并根據所述單詞信息、字符信息和形態特征輸入到第一BI-LSTM層和第一dropout層以得到第一輸出矩陣包括:
通過第一詞嵌入層獲取目標句子的第一矩陣Wm×d,m為所述目標句子中的單詞數量,d為所述目標句子中的每個單詞的詞向量維數;
通過字符嵌入層和第一LSTM層獲取目標句子的第二矩陣Cm×n,n為每個單詞中字符的字符向量維數;
獲取目標句子中各個單詞的形態特征,為每個單詞建立一個獨熱向量SUV1×10,以得到所述目標句子的第三矩陣SUVm×10;
拼接第一矩陣Wm×d、第二矩陣Cm×n和第三矩陣SUVm×10,將拼接后的拼接向量矩陣[Wm×d,Cm×n,SUVm×10]輸入到第一BI-LSTM層和第一dropout層以得到第一輸出矩陣
其中,通過字符嵌入層和第一LSTM層獲取目標句子的第二矩陣Cm×n,包括:
將目標句子中的每個單詞分割為k維列向量Ck×1,并將Ck×1輸入到隨機初始化得到的字符嵌入層中,通過所述字符嵌入層輸出k×n的矩陣,其中,k為單詞的長度;
將k×n的矩陣輸入到第一LSTM層中,將所述第一LSTM層中的最后隱狀態C1×n作為對應單詞的向量表示,以將包含m個單詞的目標句子轉換為第二矩陣Cm×n;
其中,提取目標句子的語義信息和基于卷積層提取的二元信息,并將所述語義信息輸入到第三BI-LSTM層和第三dropout層以得到第三輸出矩陣以及將二元信息輸入到第四BI-LSTM層和第四dropout層以得到第四輸出矩陣包括:
通過語義嵌入層獲取目標句子的各個單詞進行標注,將標注后的各個單詞輸入到第三BI-LSTM層中以得到第五矩陣Sm×d,并將第五矩陣Sm×d輸入到第三dropout層以得到第三輸出矩陣
通過第三詞嵌入層和卷積層獲取目標句子的第六矩陣Bm×d,并將第六矩陣Bm×d輸入到第四BI-LSTM層和第四dropout層以得到第四輸出矩陣
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910871720.8/1.html,轉載請聲明來源鉆瓜專利網。





