[發明專利]英文文本序列標注方法、系統及計算機設備有效

申請號：	201910871720.8	申請日：	2019-09-16
公開（公告）號：	CN110750965B	公開（公告）日：	2023-06-30
發明（設計）人：	孫超;于鳳英;王健宗;韓茂琨	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G06F40/169	分類號：	G06F40/169;G06F40/117;G06N3/0442;G06N3/08
代理公司：	北京英特普羅知識產權代理有限公司 11015	代理人：	王勇
地址：	518000 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	英文文本序列標注方法系統計算機設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于神經網絡的英文文本序列標注方法，其特征在于，所述方法包括：

提取目標句子的單詞信息、字符信息和形態特征，并根據所述單詞信息、字符信息和形態特征輸入到第一BI-LSTM層和第一dropout層以得到第一輸出矩陣

通過字符嵌入層獲取目標句子的字符矩陣I_(k×m)×1，通過第二詞嵌入層將字符矩陣I_(k×m)×1轉化為k×m×d維的矩陣，并將k×m×d維的矩陣輸入到第二BI-LSTM層中，通過所述第二BI-LSTM層得到第四矩陣并將第四矩陣輸入到第二dropout層以得到第二輸出矩陣

提取目標句子的語義信息和基于卷積層提取的二元信息，并將所述語義信息輸入到第三BI-LSTM層和第三dropout層以得到第三輸出矩陣以及將二元信息輸入到第四BI-LSTM層和第四dropout層以得到第四輸出矩陣

將第一輸出矩陣第二輸出矩陣第三輸出矩陣和第四輸出矩陣進行線性相加，得到線性相加結果ω_i為對應的權重系數；

將線性相加結果O輸入第二LSTM層在每個時間步記錄輸出以得到第五輸出矩陣i為各個單詞在目標句子中序號，z為輸入第二LSTM層的輸入維度；

將第五輸出矩陣作為條件隨機場CRF的輸入序列，以通過CRF輸出標簽序列Y＝(y₁,y₂,...,y_m)；

其中，提取目標句子的單詞信息、字符信息和形態特征，并根據所述單詞信息、字符信息和形態特征輸入到第一BI-LSTM層和第一dropout層以得到第一輸出矩陣包括：

通過第一詞嵌入層獲取目標句子的第一矩陣W_m×d，m為所述目標句子中的單詞數量，d為所述目標句子中的每個單詞的詞向量維數；

通過字符嵌入層和第一LSTM層獲取目標句子的第二矩陣C_m×n，n為每個單詞中字符的字符向量維數；

獲取目標句子中各個單詞的形態特征，為每個單詞建立一個獨熱向量SUV_1×10，以得到所述目標句子的第三矩陣SUV_m×10；

拼接第一矩陣W_m×d、第二矩陣C_m×n和第三矩陣SUV_m×10，將拼接后的拼接向量矩陣[W_m×d，C_m×n，SUV_m×10]輸入到第一BI-LSTM層和第一dropout層以得到第一輸出矩陣

其中，通過字符嵌入層和第一LSTM層獲取目標句子的第二矩陣C_m×n，包括：

將目標句子中的每個單詞分割為k維列向量C_k×1，并將C_k×1輸入到隨機初始化得到的字符嵌入層中，通過所述字符嵌入層輸出k×n的矩陣，其中，k為單詞的長度；

將k×n的矩陣輸入到第一LSTM層中，將所述第一LSTM層中的最后隱狀態C_1×n作為對應單詞的向量表示，以將包含m個單詞的目標句子轉換為第二矩陣C_m×n；

其中，提取目標句子的語義信息和基于卷積層提取的二元信息，并將所述語義信息輸入到第三BI-LSTM層和第三dropout層以得到第三輸出矩陣以及將二元信息輸入到第四BI-LSTM層和第四dropout層以得到第四輸出矩陣包括：

通過語義嵌入層獲取目標句子的各個單詞進行標注，將標注后的各個單詞輸入到第三BI-LSTM層中以得到第五矩陣S_m×d，并將第五矩陣S_m×d輸入到第三dropout層以得到第三輸出矩陣

通過第三詞嵌入層和卷積層獲取目標句子的第六矩陣B_m×d，并將第六矩陣B_m×d輸入到第四BI-LSTM層和第四dropout層以得到第四輸出矩陣

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于平安科技（深圳）有限公司，未經平安科技（深圳）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910871720.8/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】

[發明專利]英文文本序列標注方法、系統及計算機設備有效