[發明專利]一種結合BiLSTM-CRF算法與R-BERT算法解析稀疏語義關系的方法在審
| 申請號: | 202011337268.6 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112417888A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 陸佃龍;王增林 | 申請(專利權)人: | 江蘇網譜數據科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/279;G06N3/04;G06N3/08 |
| 代理公司: | 北京衛智暢科專利代理事務所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 211800 江蘇省南京市江北新*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 bilstm crf 算法 bert 解析 稀疏 語義 關系 方法 | ||
本發明提供一種結合BiLSTM?CRF算法與R?BERT算法解析稀疏語義關系的方法,通過網絡爬蟲獲取新興行業的文本數據,并對文本數據進行半監督標注;對標注文本數據進行預處理,構建訓練數據集與驗證數據集;并根據訓練數據集、驗證數據集訓練BiLSTM?CRF算法模型、R?BERT算法模型;通過訓練后的BiLSTM?CRF算法模型提取待預測文本數據中包含的實體;通過訓練后的R?BERT算法模型預測待預測文本數據與實體的關系,建立相關實體間的關系連接;根據建立的關系連接提取待測文本數據語義關系的三元組對,完成對待測文本數據的語義解析。本發明針對非結構化文本的信息抽取提出一種高精度的語義關系提取方法,利用BiLSTM?CRF的算法模型提取文本中的所需實體,將文本及其抽取實體通過R?BERT模型預測實體間的關系。
技術領域
本發明涉及計算機技術領域,具體地涉及一種基于深度學習和預訓練模型的語義關系解析方法和一種高效的半監督式的語義實體關系標注構建方法,特別是涉及一種結合BiLSTM-CRF算法與R-BERT算法解析稀疏語義關系的方法。
背景技術
隨著互聯網的迅速發展,海量互聯網數據的分析處理成為了各個行業至關重要的任務,互聯網中的海量文本數據,尤其是非結構化文本數據蘊含著大量的重要信息,但同時也包含大量噪聲與無關信息,有效實體的分布較為稀疏,如何高精度地提取非結構化文本中的數據信息,成為行業分析中的重中之重。
并且,人工方式的文本數據關系提取借助大量人力資源,在海量數據中挖掘實體與實體間關系,傳統的機器學習方式在語義解析上難以有較高精度,同時標注數據的不足和較高的標注成本也成為影響語義實體關系抽取精度的因素。
互聯網非結構化文章中的市場數據分布較為稀疏,無關信息對市場數據數值和其指定的產品、時間等關系的判斷帶來了較大噪聲。對于新興行業(如智能家居、物聯網、5G等)的文章進行實體語義解析提取行業關鍵數據,訓練數據的構建因為直接與新興行業掛鉤的數據披露文章數量較少,難以構建足夠大的訓練數據集進行訓練,如何利用傳統行業文章報告的數據集進行數據增強和遷移,解決新興行業數據提取“冷啟動”的問題,成為了語義實體關系分析的關鍵。
發明內容
鑒于以上所述現有技術的缺點,本發明的目的在于提供一種結合BiLSTM-CRF算法與R-BERT算法解析稀疏語義關系的方法,用于解決現有技術中存在的問題。
為實現上述目的及其他相關目的,本發明提供一種結合BiLSTM-CRF算法與R-BERT算法解析稀疏語義關系的方法,包括以下步驟:
通過網絡爬蟲獲取新興行業的文本數據,并對所述文本數據進行半監督標注;
對標注文本數據進行預處理,構建訓練數據集與驗證數據集;并根據所述訓練數據集、所述驗證數據集訓練BiLSTM-CRF算法模型、R-BERT算法模型;
通過訓練后的BiLSTM-CRF算法模型提取待預測文本數據中包含的實體;
通過訓練后的R-BERT算法模型預測待預測文本數據與所述實體的關系,建立相關實體間的關系連接;
根據建立的關系連接提取所述待測文本數據語義關系的三元組對,完成對所述待測文本數據的語義解析。
可選地,對所述文本數據進行半監督標注,包括:
采用增量學習的方式,利用部分標注后的文本數據訓練模型,并根據訓練后的模型對其余未標注的文本數據進行預測;
將置信度高于預設閾值的預測結果直接作為文本數據的標記,并由人工再標注置信度低于預設閾值的文本數據。
可選地,通過訓練后的BiLSTM-CRF算法模型提取待預測文本數據中包含的實體,包括有:
利用雙向的LSTM模型對文本數據序列進行前向和后向的建模;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇網譜數據科技有限公司,未經江蘇網譜數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011337268.6/2.html,轉載請聲明來源鉆瓜專利網。





