[發明專利]一種基于混合神經網絡的網絡文本實體關系抽取算法在審
| 申請號: | 202110903583.9 | 申請日: | 2021-08-06 |
| 公開(公告)號: | CN113505598A | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 廖一星;王亮;朱勇;劉作國;綦云華;李子燦;姬科盛;柏富強;徐亮 | 申請(專利權)人: | 貴州江南航天信息網絡通信有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 重慶強大凱創專利代理事務所(普通合伙) 50217 | 代理人: | 劉永來 |
| 地址: | 550000 貴州省*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 神經網絡 網絡 文本 實體 關系 抽取 算法 | ||
本發明公開了一種基于混合神經網絡的網絡文本實體關系抽取算法,將網絡文本分成兩份內容一致的文本,將標注后的段落根據序號段落進行歸類整理,得到段落文本歸類數據,根據名詞實體關系進行分類,并進行歸納標注,得到名詞文本歸類數據,實現對兩份文本數據的實體文本信息的抽取。本發明通過對網絡文本分成兩部分,分別通過段落文本歸類和名詞實體文本歸類劃分編碼,分別利用主題建模類別劃分識別的方式和指針生成網絡摘取識別的方式實現對段落文本內的數據實體關系的提取,通過TF?IDF信息處理和重復二分聚類算法處理實現對名詞實體的關系抽取,再對兩種方式得到的數據進行整合,能高效精準的提取到實體關鍵詞之間的關系屬性。
技術領域
本發明涉及網絡文本關系算法技術領域,尤其涉及一種基于混合神經網絡的網絡文本實體關系抽取算法。
背景技術
隨著互聯網時代的到來,在數據與算力的雙重加持下,深度學習引發的人工智能浪潮席卷全球,為了讓計算機做到對語言的精準理解,需要賦予其大量的先驗知識,這些知識主要以結構化知識進行表示。可是與現實世界快速增長的知識量相比,結構化知識的覆蓋度仍未趕上。為解決這個問題,研究人員使用實體關系抽取算法自動抽取文本中蘊含的知識,但在非英文環境下,由于數據量和文本表示的問題,算法的抽取結果與英文算法的抽取結果間存在巨大差距。為了消除語言間的差異,目前方法多采用參數遷移,標注投影等啟發式方法進行跨語言信息抽取,這些方法沒有考慮語言間的差異,且多數需要給定嚴格的限制以保證效果。針對不同語言實體關系抽取模型之間的性能差距大,現有方法在語言間信息遷移效率不高的問題,實體關系抽取是信息抽取的一個重要分支,它是指通過信息抽取技術,從自然文本抽取出實體及其之間的關系,即將非結構化數據變成半結構化數據或結構化數據的技術。隨著互聯網的日益普及和廣泛應用,互聯網數據急劇膨脹,海量無標簽數據中富含大量命名實體及其關系屬性,如人物、機構以及他們之間的關系,如何從海量數據中高效、精準的抽取出這些實體及關系屬性,成為目前實體關系抽取面臨的重大挑戰。
發明內容
本發明的目的是為了解決現有技術中的缺點,而提出的一種基于混合神經網絡的網絡文本實體關系抽取算法。
為了實現上述目的,本發明采用了如下技術方案:
一種基于混合神經網絡的網絡文本實體關系抽取算法,該算法包括如下步驟:
S1、將網絡文本分成兩份內容一致的文本,一部分將文本以段落在文本的位置關系進行分序,并進行逐一序號標注,將標注后的段落根據序號段落進行歸類整理,得到段落文本歸類數據;
S2、將另一部分的文本內的名詞實體進行識別歸納,根據名詞實體關系進行分類,并進行歸納標注,得到名詞文本歸類數據,實現對兩份文本數據的實體文本信息的抽取;
S3、對段落文本歸類數據進行解碼建模,采用主題建模類別劃分識別的方式和指針生成網絡摘取識別兩種方式實現對網絡文本中的大數據的提取計算;
S4、將名詞文本歸類數據分別通過TF-IDF信息處理和重復二分聚類算法處理,根據名詞文本歸類數據內的關鍵詞的識別與計算,得出大數據中的實體關系抽取。
優選地,所述加碼與解碼分別通過編碼層使用Bi-LSTM來進行編碼;解碼層再使用LSTM進行解碼,從而實現數據的轉換。
優選地,所述S3建模模型中有兩個雙向的LSTM-RNN,一個基于wordsequence用于實體檢測;一個基于TreeStructures用于關系抽取;后者疊加在前者上,前者的輸出和隱含層作為后者輸入的一部分。
優選地,所述S3中指針生成網絡摘取識別包括主要為抽取式識別方式,抽取式識別方式是將文本中詞語重要性、句子重要性進行排序,抽取出重要度高的句子,形成摘要得到實體關系數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州江南航天信息網絡通信有限公司,未經貴州江南航天信息網絡通信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110903583.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種物料攪拌器和大方量料斗
- 下一篇:一種城市軌道交通齒輪箱用圓柱滾子軸承





