[發明專利]一種結合BiLSTM-CRF算法與R-BERT算法解析稀疏語義關系的方法在審
| 申請號: | 202011337268.6 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112417888A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 陸佃龍;王增林 | 申請(專利權)人: | 江蘇網譜數據科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/279;G06N3/04;G06N3/08 |
| 代理公司: | 北京衛智暢科專利代理事務所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 211800 江蘇省南京市江北新*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 bilstm crf 算法 bert 解析 稀疏 語義 關系 方法 | ||
1.一種結合BiLSTM-CRF算法與R-BERT算法解析稀疏語義關系的方法,其特征在于,包括以下步驟:
通過網絡爬蟲獲取新興行業的文本數據,并對所述文本數據進行半監督標注;
對標注文本數據進行預處理,構建訓練數據集與驗證數據集;并根據所述訓練數據集、所述驗證數據集訓練BiLSTM-CRF算法模型、R-BERT算法模型;
通過訓練后的BiLSTM-CRF算法模型提取待預測文本數據中包含的實體;
通過訓練后的R-BERT算法模型預測待預測文本數據與所述實體的關系,建立相關實體間的關系連接;
根據建立的關系連接提取所述待測文本數據語義關系的三元組對,完成對所述待測文本數據的語義解析。
2.根據權利要求1所述的結合BiLSTM-CRF算法與R-BERT算法解析稀疏語義關系的方法,其特征在于,對所述文本數據進行半監督標注,包括:
采用增量學習的方式,利用部分標注后的文本數據訓練模型,并根據訓練后的模型對其余未標注的文本數據進行預測;
將置信度高于預設閾值的預測結果直接作為文本數據的標記,并由人工再標注置信度低于預設閾值的文本數據。
3.根據權利要求1所述的結合BiLSTM-CRF算法與R-BERT算法解析稀疏語義關系的方法,其特征在于,通過訓練后的BiLSTM-CRF算法模型提取待預測文本數據中包含的實體,包括有:
利用雙向的LSTM模型對文本數據序列進行前向和后向的建模;
利用條件隨機場CRF約束標簽結果之間的關系,對整個預測路徑進行打分,提取出文本數據中包含的實體。
4.根據權利要求1或3所述的結合BiLSTM-CRF算法與R-BERT算法解析稀疏語義關系的方法,其特征在于,還包括:
獲取從文本數據中提取出的實體,并根據所述實體構建實體庫;
基于所述實體庫,采用隨機替換的方式對傳統行業數據中相同類型的實體進行替換,并針對通用實體類型構建不同表達方式的隨機數詞生成器;
通過所述隨機數詞生成器對原始標注文本數據中的通用實體進行隨機生成和替換,擴充標注數據。
5.根據權利要求1所述的結合BiLSTM-CRF算法與R-BERT算法解析稀疏語義關系的方法,其特征在于,若所述文本數據為文章,則通過訓練后的R-BERT算法模型預測待預測文本數據與所述實體的關系,包括:
獲取BERT原始模型,通過所述BERT原始模型采用[CLS]標記代表文章中句子整體類型的特征,并使用[SEP]對輸入的文章中多個句子進行分割;以及,
通過將BERT的輸入與上游抽取的實體進行結合,采用{[CLS]文章句子[SEP]主體[客體][SEP]}的結構進行編碼;
連接句子向量、主語實體向量、客體實體向量,并通過全連接和softmax預測關系類型;其中,使用Hs=[hs1,hs1+1,...,hs2]表示主語實體向量;使用Ho=[ho1,ho1+1,...,ho2]表示客體實體向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇網譜數據科技有限公司,未經江蘇網譜數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011337268.6/1.html,轉載請聲明來源鉆瓜專利網。





