[發明專利]一種基于遮蔽語言模型的金融領域多重關系抽取方法有效
| 申請號: | 202010394859.0 | 申請日: | 2020-05-09 |
| 公開(公告)號: | CN111597812B | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 周露 | 申請(專利權)人: | 北京合眾鼎成科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N20/00 |
| 代理公司: | 北京知元同創知識產權代理事務所(普通合伙) 11535 | 代理人: | 劉元霞 |
| 地址: | 100000 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遮蔽 語言 模型 金融 領域 多重 關系 抽取 方法 | ||
本發明公開了一種基于遮蔽語言模型的金融領域多重關系抽取方法,首先,利用遮蔽語言模型對輸入的數據集編碼為句向量,其次,利用基于概率圖思想的融合模型從句向量中抽取主語、謂語和賓語,根據所述主語向量和取賓語向量抽取其對應的謂語向量,最后提出主語、謂語和賓語,并將其映射為對應的字符串。本發明基于概率圖模型的聯合學習結構,引用概率圖模型的數學思想,不僅能同時抽取非結構化數據中的主語、賓語以及其對應關系,還能解決關系抽取中存在的三元組各個元素存在重疊的復雜問題,極大的提升了關系抽取領域非結構化數據的處理能力。
技術領域
本發明涉及一種基于遮蔽語言模型的金融領域多重關系抽取方法。
背景技術
現有的關系抽取方法包括有監督的實體關系抽取、半監督的實體關系抽取、無監督的實體關系抽取及開放式實體關系抽取。
一、實體關系抽取主要包括以下方法:
(1)基于規則的方法需要根據待處理語料涉及領域的不同,通過人工或機器學習的方法總結歸納出相應的規則或模板,然后采用模板匹配的方法進行實體關系抽取;
(2)基于特征向量的方法是一種簡單、有效的實體關系抽取方法,其主要思想是從關系句子實例的上下文中提取有用信息(包括詞法信息、語法信息)作為特征,構造特征向量,通過計算特征向量的相似度來訓練實體關系抽取模型。該方法的關鍵在于尋找類間有區分度的特征,形成多維加權特征向量,然后采用合適的分類器進行分類。
(3)基于特征向量的實體關系抽取方法能夠取得較好的效果,但無法充分利用實體對上下文的結構信息。因此發明了多種基于核函數的實體關系抽取方法,包括詞序列核函數方法、依存樹核函數方法、最短路徑依存樹核函數方法、卷積樹核函數方法以及它們的組合核函數方法。部分研究還基于核函數的方法與基于特征向量的方法結合來進行實體關系抽取,已有實驗結果表明基于核函數和基于特征的實體關系抽取方法可以相互補充。
(4)基于圖模型的關系抽取算法,需要先獨立學習兩個局部分類器,實體和關系之間的依賴通過貝葉斯信念網實現。效果優于獨立關系分類器。
二、半監督的實體關系抽取主要包括以下方法:
(1)基于Bootstrapping的半監督實體關系抽取方法從包含關系種子的上下文中總結出實體關系序列模式,然后利用關系序列模式去發現更多的關系種子實例,形成新的關系種子集合。此方法存在一個關鍵的問題,如何對獲取的模式進行過濾,以免將過多的噪聲引入迭代過程中而導致“語義漂移”問題。為了解決該問題,提出了協同學習(co-learning)方法,該方法利用兩個條件獨立的特征集來提供不同且互補的信息,從而減少標注錯誤。
(2)基于圖的半監督方法,每一個instance用一個節點表示,邊表示節點的相似度。任何節點的標簽信息通過加權邊緣迭代地傳播到附近節點,最后在傳播過程收斂時推斷出未示例的標簽。有研究將數據集中的每個實體對表示為圖中的節點,并且還將特征向量與其相關聯。特征向量包含表征關系實例的各種特征。這種方法效果比SVM、boosting算法效果更好。
三、無監督的實體關系抽取方法無需依賴實體關系標注語料,其實現包括關系實例聚類和關系類型詞選擇兩個過程。首先根據實體對出現的上下文將相似度高的實體對聚為一類,然后選擇具有代表性的詞語來標記這種關系。例如,有研究嘗試對實體關系上下文的特征進行加權,并采用改進的K均值算法進行聚類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京合眾鼎成科技有限公司,未經北京合眾鼎成科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010394859.0/2.html,轉載請聲明來源鉆瓜專利網。





