[發明專利]一種基于分詞和命名實體識別的多任務深度神經網絡的句子主干分析方法及系統有效
| 申請號: | 201810789114.7 | 申請日: | 2018-07-18 |
| 公開(公告)號: | CN109255119B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 陳濤;吳明芬 | 申請(專利權)人: | 五邑大學 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/279;G06F40/295;G06N3/0442;G06N3/08 |
| 代理公司: | 廣州市紅荔專利代理有限公司 44214 | 代理人: | 吳偉文 |
| 地址: | 529020 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分詞 命名 實體 識別 任務 深度 神經網絡 句子 主干 分析 方法 系統 | ||
1.一種基于分詞和命名實體識別的多任務深度神經網絡的句子主干分析方法,其特征在于包括以下步驟:
S1)、分別使用三個不同的帶有條件隨機場的雙向LSTM神經網絡對中文分詞語料、中文命名實體識別語料和中文句子主干分析語料分別進行分詞、命名實體識別和句子主干分析,并將三個網絡的輸出向量分別傳遞給下一層神經網絡,即多任務參數共享層網絡;
其中,使用帶有條件隨機場的雙向LSTM神經網絡對中文分詞語料進行分詞,具體如下:
輸入的中文句子分為訓練集和測試集兩類,訓練集中的句子采用人工標注的方式進行分詞,用空格作為詞與詞之間的分隔符;
測試集中的句子則是未經過分詞的中文句子;
帶有條件隨機場的雙向LSTM神經網絡在訓練集上訓練分詞模型,在測試集上測試該模型的性能;
帶有條件隨機場的雙向LSTM神經網絡進行命名實體識別,具體如下:
輸入的中文命名實體識別語料分為訓練集和測試集兩類;
訓練集中的句子通過人工標注了命名實體,所采用的標記方法是BIO標記法,其中,B表示命名實體的開始詞;I表示命名實體的中間詞或結尾詞;O表示命名實體之外的詞;
將帶有上述BIO標記的人工標注好命名實體的訓練集句子輸入到帶有條件隨機場的雙向LSTM網絡中,對神經網絡進行訓練,通過調節神經網絡的參數實現模型的優化;
將一個未帶有BIO序列標記的只分好詞的中文句子輸入到訓練好的神經網絡中,神經網絡會給該句子中的每個詞自動標注一個BIO標記,從而實現命名實體的自動學習和識別;
帶有條件隨機場的雙向LSTM神經網絡進行中文句子主干分析,具體如下:與前面的中文分詞和命名實體識別相似,輸入的中文句子主干分析語料分為訓練集和測試集兩類;
將人工標注了句子主干成分的中文句子作為訓練集,將未標注句子主干成分的句子作為測試集,輸入到帶有條件隨機場的雙向LSTM網絡中,進行訓練;
其中標記句子主干成分采用Y/N標記方法標記出來,Y表示是句子主干成分,N表示不是句子主干成分;
將上一層網絡識別出來的命名實體作為一個長詞看待;
帶有條件隨機場的雙向LSTM神經網絡在上述訓練集上訓練句子主干分析模型,在測試集上測試該模型的性能;
將三個網絡的輸出向量分別傳遞給多任務參數共享層網絡,具體如下:負責上述三個任務(中文分詞任務、命名實體識別任務和句子主干分析任務)的帶有條件隨機場的雙向LSTM神經網絡在訓練過程中輸出每個任務的特征向量,這些向量具有一定的與所訓練任務相關的句法或語義信息;將上述特征向量傳遞給下一層網絡,即多任務參數共享層網絡,用于多任務機器學習;
所述的雙向LSTM神經網絡由輸入層、BiLSTM層和CRF層組成,其中,BiLSTM層由一個前向LSTM網絡和個后向LSTM網絡組成,因此,它可以同時從前后兩個方向學習句子序列的信息;CRF層由一個基于概率統計的條件隨機場模型構成;雙向LSTM神經網絡是一種帶有長距離短期記憶單位作為隱含單元的循環神經網絡;
S2)、多任務參數共享層網絡使用全連接的神經網絡對三個任務傳遞來的特征向量進行拼接和訓練,并將訓練結果反向傳遞給負責訓練三個任務的帶有條件隨機場的雙向LSTM神經網絡的輸入層;
多任務參數共享層網絡使用全連接的神經網絡對三個任務傳遞來的特征向量進行拼接和訓練,具體如下:
全連接的神經網絡是指輸入層與隱含層、隱含層與隱含層、隱含層與輸出層之間,任意一個網絡層中的神經元都和與其相鄰的網絡層的神經元兩兩互聯組成的神經網絡;
其中,多任務參數共享層網絡的輸入是負責中文分詞任務、命名實體識別任務和句子主干分析任務的帶有條件隨機場的雙向LSTM神經網絡輸出的特征向量,每個任務輸出一個特征向量,三個特征向量收尾相連拼接成一個長向量,輸入給多任務參數共享層網絡;
將訓練結果反向傳遞給負責訓練三個任務的帶有條件隨機場的雙向LSTM神經網絡的輸入層,具體如下:
全連接的神經網絡的訓練誤差結果經過歸一化后,反向傳遞給負責訓練三個任務的帶有條件隨機場的雙向LSTM神經網絡的輸入層,用于調整這三個網絡中神經元的權值和輸入向量的值;
S3)、經過多個周期的迭代訓練后,輸出帶有句子主干標注信息的結果序列;具體如下:
經過多個周期的迭代訓練后,當整個網絡達到收斂或者訓練周期達到設定的最大訓練周期數,迭代訓練停止;
將帶有句子主干標注信息的結果序列輸出,并利用可視化方式將其呈現給用戶。
2.一種基于分詞和命名實體識別的多任務深度神經網絡的句子主干分析系統,其特征在于,所述的系統用于權利要求1的方法,具體包括:
中文分詞模塊,用于將中文句子文本切分成詞匯序列;
命名實體識別模塊:用于對分好詞的中文句子進行命名實體識別,自動分析句子中的命名實體句子主干分析,并用BIO標簽標記出來;
句子主干分析模塊:用于對命名實體識別后的句子的進行句子主干分析,自動識別出句子中的主要成分,并用Y/N標簽標記出來;
多任務參數共享模塊:將上述三個模塊輸出的特征向量進行拼接和訓練,將訓練結果反向傳遞給負責三個任務的神經網絡的輸入層;
結果輸出模塊,用于將句子主干分析的結果以便于用戶理解的方式可視化輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于五邑大學,未經五邑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810789114.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種關鍵詞提取方法及裝置
- 下一篇:一種老撾語分詞方法





