[發(fā)明專利]一種基于深度學習的三元組抽取方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110422948.6 | 申請日: | 2021-04-20 |
| 公開(公告)號: | CN113051922A | 公開(公告)日: | 2021-06-29 |
| 發(fā)明(設計)人: | 劉新亮;馬蕾;張夢琪;郝瀚 | 申請(專利權)人: | 北京工商大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/211;G06N3/04 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 江亞平 |
| 地址: | 100048*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 三元 抽取 方法 系統(tǒng) | ||
1.一種基于深度學習的三元組抽取方法,其特征在于,包括:
步驟S1:獲取文本語料庫,并進行預處理;
步驟S2:利用預訓練語言模型對所述文本語料庫進行處理,獲得句子的字符向量;
步驟S3:將所述字符向量經過BiLSTM神經網絡以及CRF模型進行處理,得到所述句子的標簽序列,從而識別所述句子的實體及其類型;
步驟S4:根據(jù)所述實體及其類型,構建實體信息向量;將所述字符向量和所述實體信息向量相加作為主體,輸入關系客體模型,根據(jù)所述文本語料庫中預先定義的關系,得到對應的客體,由此構造三元組。
2.根據(jù)權利要求1所述的基于深度學習的三元組抽取方法,其特征在于,所述步驟S2:利用預訓練語言模型對所述文本語料庫進行處理,獲得句子的字符向量,具體包括:
構建一條包含n個字的句子S=(s1,s2,...sn),以S作為輸入,經過所述預訓練語言模型對S進行上下文信息編碼,輸出所述句子的字符向量X=(x1,x2,...xn);其中,xi為第i個字的向量。
3.根據(jù)權利要求1所述的基于深度學習的三元組抽取方法,其特征在于,所述步驟S3:將所述字符向量經過BiLSTM神經網絡以及CRF模型進行處理,得到所述句子的標簽序列,從而識別所述句子的實體及其類型,具體包括:
步驟S31:將所述句子的字符向量X=(x1,x2,...xn),經過前饋LSTM得到隱狀態(tài)經過后饋LSTM得到隱狀態(tài)將正反向輸出的隱狀態(tài)進行拼接,得到完整的隱狀態(tài)序列輸出概率矩陣P;
步驟S32:將所述概率矩陣P輸入CRF模型,得到所述句子的標簽序列y=(y1,y2,..,yn),識別所述標簽序列,從而得到所述句子的實體及其類型。
4.根據(jù)權利要求1所述的基于深度學習的三元組抽取方法,其特征在于,所述步驟S4:根據(jù)所述實體及其類型,構建實體信息向量;將所述字符向量和所述實體信息向量相加作為主體,輸入關系客體模型,根據(jù)所述文本語料庫中預先定義的關系,得到對應的客體,由此構造三元組,具體包括:
步驟S41:根據(jù)所述實體及其類型,利用所述預訓練語言模型構建實體信息向量其中,表示第k個實體的信息向量;
步驟S42:將xi與相加,作為三元組中的主體,輸入關系客體模型,根據(jù)所述文本語料庫中預先定義的關系,然后通過全連接層,得出在所述關系下,客體的頭尾索引位置的概率p;
步驟S43:當所述概率p大于預設的閾值時,將所述索引位置標記為1,小于則標記為0;采用最近的起止對匹配原理,根據(jù)所述標記為1的所述索引位置,得出對應的客體;即可根據(jù)所述主體、關系及其客體,構成一個三元組。
5.一種基于深度學習的三元組抽取系統(tǒng),其特征在于,包括下述模塊:
獲取文本語料庫模塊,用于獲取文本語料庫,并進行預處理;
獲取句子的字符向量模塊,用于利用預訓練語言模型對所述文本語料庫進行處理,獲得句子的字符向量;
獲取實體及其類型模塊,用于將所述字符向量經過BiLSTM神經網絡以及CRF模型進行處理,得到所述句子的標簽序列,從而識別所述句子的實體及其類型;
構造三元組模塊,用于根據(jù)所述實體及其類型,構建實體信息向量;將所述字符向量和所述實體信息向量相加作為主體,輸入關系客體模型,根據(jù)所述文本語料庫中預先定義的關系,得到對應的客體,由此構造三元組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工商大學,未經北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110422948.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于輕質瓦楞夾芯板的雙螺紋嵌入式螺釘
- 下一篇:一種氣動式往復振動器





