[發明專利]英文文本序列標注方法、系統及計算機設備有效
| 申請號: | 201910871720.8 | 申請日: | 2019-09-16 |
| 公開(公告)號: | CN110750965B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 孫超;于鳳英;王健宗;韓茂琨 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/169 | 分類號: | G06F40/169;G06F40/117;G06N3/0442;G06N3/08 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 王勇 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 英文 文本 序列 標注 方法 系統 計算機 設備 | ||
本發明實施例提供了一種基于神經網絡的英文文本序列標注方法,所述方法包括:提取目標句子的單詞信息、字符信息和形態特征,并根據所述單詞信息、字符信息和形態特征輸入到第一BI?LSTM層和第一dropout層以得到第一輸出矩陣通過選擇性信息對應的第四矩陣得到第二輸出矩陣通過語義信息對應第五矩陣Ssubgt;m×d/subgt;得到第三輸出矩陣通過二元信息對應的第六矩陣Bsubgt;m×d/subgt;第四輸出矩陣將和進行線性相加,得到線性相加結果將線性相加結果O輸入第二LSTM層得到第五輸出矩陣將作為條件隨機場CRF的輸入序列,以通過CRF輸出標簽序列Y=(ysubgt;1/subgt;,ysubgt;2/subgt;,...,ysubgt;m/subgt;)。本發明實施例可以有效提升標注準確率。
技術領域
本發明實施例涉及計算機數據處理領域,尤其涉及一種基于神經網絡的英文文本序列標注方法、系統、計算機設備以及計算機可讀存儲介質。
背景技術
隨著網絡技術的普及,文本數據資源的規模日益增長,例如CNN、BBC等新聞網站每天都會產生大量文本數據。同時,面對規模龐大的文本數據資源,人們開始借助自然語言處理(Natural?Language?Processing,NLP)等技術來對海量文本數據進行信息提取、挖掘、分類和歸納等一系列操作。而在自然語言處理中,序列標注模型是最常見的模型,也有著廣泛地應用,其輸出的是一個標簽序列。通常而言,標簽之間是相互聯系的,構成標簽之間的結構信息。利用這些結構信息,序列標注模型可以快速有效的預知文本序列中每個詞語對應的標簽(比如,人名,地名等)。
現有的序列標注模型,包括多層感知器(Multilayer?Perceptron,MLP)、自動編碼器(Auto?Encoder,AE)、卷積神經網絡(Convolutional?Neural?Networks,CNN)、循環神經網絡(Recurrent?Neural?Networks,RNN)等。上述序列標注模型一定程度上代替了人工特征抽取,但是標注準確率仍然較低。
因此,針對現有序列標注模型的標注準確率較低的問題,有必要在現有序列標注模型進行改進的基礎上,提出一種英文文本序列標注方法,以提升標注準確率。
發明內容
有鑒于此,本發明實施例的目的是提供一種基于神經網絡的英文文本序列標注方法、系統、計算機設備及計算機可讀存儲介質,可以有效提升標注準確率。
為實現上述目的,本發明實施例提供了一種基于神經網絡的英文文本序列標注方法,所述方法包括:
提取目標句子的單詞信息、字符信息和形態特征,并根據所述單詞信息、字符信息和形態特征輸入到第一BI-LSTM層和第一dropout層以得到第一輸出矩陣
通過所述字符嵌入層獲取目標句子的字符矩陣I(k×m)×1,通過第二詞嵌入層將字符矩陣I(k×m)×1轉化為k×m×d維的矩陣,并將k×m×d維的矩陣輸入到第二BI-LSTM層中,通過所述第二BI-LSTM層得到第四矩陣并將第四矩陣輸入到第二dropout層以得到第二輸出矩陣
提取目標句子的語義信息和基于卷積層提取的二元信息,并將所述語義信息輸入到第三BI-LSTM層和第三dropout層以得到第三輸出矩陣以及將二元信息輸入到第四Bi-LSTM層和第四dropout層以得到第四輸出矩陣
將第一輸出矩陣第二輸出矩陣第三輸出矩陣和第四輸出矩陣進行線性相加,得到線性相加結果ωi為對應的權重系數;
將線性相加結果O輸入第二LSTM層在每個時間步記錄輸出以得到第五輸出矩陣i為各個單詞在目標句子中序號,z為輸入第二LSTM層的輸入維度;
將第五輸出矩陣作為條件隨機場CRF的輸入序列,以通過CRF輸出標簽序列Y=(y1,y2,...,ym)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910871720.8/2.html,轉載請聲明來源鉆瓜專利網。





