[發明專利]一種融入動態詞向量的關系抽取系統在審
| 申請號: | 202011387516.8 | 申請日: | 2019-01-25 |
| 公開(公告)號: | CN112487203A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 張力文;程國艮 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33;G06N3/04;G06F40/30 |
| 代理公司: | 北京中譽威圣知識產權代理有限公司 11279 | 代理人: | 蔣常雪 |
| 地址: | 100131 北京市石景*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融入 動態 向量 關系 抽取 系統 | ||
本發明提供了一種融入動態詞向量技術的實體關系抽取方法及系統。本系統利用遠程監督方法,將已有的知識庫對應到豐富的非結構化數據中,以便生成大量的訓練數據,從而緩解人工標注語料不足的問題,該系統可以降低對標注數據的依賴性,從而有效地減少人力成本。為了盡可能地獲取實體間的特征信息,本模型的基礎架構采用分段卷積神經網絡;并融入動態詞向量技術進一步抽取例句的語義信息。
技術領域
本發明涉及信息抽取領域,具體而言,是挖掘實體與實體之間的語義關系。
背景技術
信息抽取旨在從大規模非結構或半結構的自然語言文本中抽取結構化信息,主要任務有實體抽取、關系抽取、事件抽取。其中,關系抽取(Relation Extraction,RE)研究的主要內容是從文本內容中挖掘出實體與實體之間的語義關系,利用關系抽取技術挖掘出實體之間深層的關系結構,具有深刻的理論意義和巨大的研究價值,它也是優化搜索引擎、建立知識圖譜、開發智能問答系統的基礎工作。
實踐證明,有監督的學習方法能夠抽取更有效的特征,其準確率和召回率都比較高,但它們嚴重依賴詞性標注、句法解析等自然語言處理標注提供分類特征。而自然語言處理標注工具往往存在大量錯誤,這些錯誤將會在關系抽取系統中不斷傳播放大,最終影響關系抽取的效果。隨著深度學習的迅猛發展,神經網絡模型能夠自動學習句子特征,無需依賴復雜的特征工程。許多研究工作傾向于使用神經網絡模型去解決關系抽取問題。
使用神經網絡模型主要面臨兩個問題:(1)沒有足夠的標注數據,訓練數據集對實體及實體關系的覆蓋率較低,在通用性方面表現不佳。并且人工標注訓練數據需要花費大量的時間和精力;(2)由于詞語用法在語義和語法上是復雜,多變的,現有模型使用預先訓練的詞向量是“靜態”的,無法隨著語言環境的改變而改變。從而其表征能力有一定的局限性。
發明內容
有鑒于此,本發明的目的在于提供一種融入動態詞向量的關系抽取模型及系統,利用遠程監督方法,通過將知識庫與非結構化文本對齊來自動構建大量訓練數據,減少模型對人工標注數據的依賴,增強模型跨領域適應能力。并引用注意力機制,消除遠程監督產生的噪音數據的影響。最后使用動態詞向量技術,提高關系抽取的準確率。進而至少在一定程度上克服由于相關技術的限制和語料數目不足而導致的一個或者多個問題。
為了實現上述目的,根據本發明的一個方面,本發明提供如下技術方案:一種融入動態詞向量的關系抽取方法,包括:
部分一:獲取動態詞向量:首先在大文本語料庫上預訓練一個深度雙向語言模型(LM),然后根據該模型的內部狀態學習到的函數作為詞向量;這種詞向量不是一成不變的,而是根據上下文而隨時變化。該部分使用已有的ELMO模型或BERT模型,作為詞向量的生成模型。
ELMO模型,以雙向語言模型為基礎,用各層之間的線性組合來表示詞向量的一種方式。
BERT模型,用Transformer的雙向編碼器表示。與最近的其他語言表示模型不同,BERT旨在通過聯合調節所有層中的上下文來預先訓練深度雙向表示。因此,預訓練的BERT表示可以通過一個額外的輸出層進行微調,適用于廣泛任務的最先進模型的構建。
部分二:采用引入注意力機制的分段神經網絡模型進行訓練,將獲取的所述詞向量分別計算所述詞向量對應的權重,拼接后得到句向量表示。相同的實體對在不同的語句中,可能表示不同的關系。因此,在使用遠程監督時,按實體對抽取語句,無法避免地引入噪音數據。該部分就是為了極大限度的減少噪音對關系抽取的影響。
更為具體地:所述分段神經網絡模型的輸入為包含實體對的訓練語句;且所述訓練語句被所述實體對分為三段,并將其映射為相應的三段詞向量;使用卷積神經網絡,分別對所述三段詞向量進行特征提取,得到三段特征向量,分別計算所述三段特征向量的權重與關系向量;具體采用如下公式計算所述三段特征向量的權重和關系向量:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011387516.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:雙釋放片及其制備方法
- 下一篇:一種無創呼吸機面罩





