[發明專利]政府治理領域下融合主題知識的深度關系抽取方法在審
| 申請號: | 202010101678.4 | 申請日: | 2020-02-19 |
| 公開(公告)號: | CN113282758A | 公開(公告)日: | 2021-08-20 |
| 發明(設計)人: | 蔣海云;王玥奕;梁斌;肖仰華;程序;劉汪洋 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F40/30;G06Q50/26 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 盧泓宇 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 政府 治理 領域 融合 主題 知識 深度 關系 抽取 方法 | ||
本發明提供一種政府治理領域下融合主題知識的深度關系抽取方法,用于基于政府領域的主題知識為包含實體對的句子抽取與該實體對相匹配的關系標簽,其特征在于,包括如下步驟:步驟S1,構建用于判定句子以及關系標簽之間的匹配程度的關系匹配模型;步驟S2,通過預設的主題模型提取與關系標簽對應的主題知識;步驟S3,將句子、關系標簽以及對應的主題知識分別輸入關系匹配模型從而得到句子與關系標簽之間的匹配分數;步驟S4,基于匹配分數對句子與對應的關系標簽進行匹配從而完成對該句子的關系抽取。
技術領域
本發明屬于知識庫構建領域,涉及政務知識庫的構建,具體涉及一種融合政府領域的主題模型和深度學習的構建方法
背景技術
在政府數據治理場景中,知識庫的構建能有效幫助數據的治理和關聯等應用。而政府領域的關系抽取是知識庫構建的重要任務之一,旨在從非結構化文本中識別出實體對之間的語義關系。早期的關系抽取主要依賴人工標注訓練數據,然后采用支持向量機等機器學習算法實現關系分類。有監督的關系往往面臨著數據稀疏的問題,很難擴展到大規模的抽取任務。2009年,Mintz等人首次將遠程監督技術引入到關系抽取中。遠程監督能夠通過對齊非結構化文本和現有的知識庫,從而實現訓練集的自動構建。
主流的關系抽取主要建模為多分類問題,即每個類別對應一個關系標簽。在深度學習流行之前,主要依賴人工設計特征,然后采用核函數等方法去構建關系分類模型。為了消除遠程監督的噪聲問題,關系抽取被建模為多實例學習,即利用實體對的句子集合去預測關系。其基本假設是:句子集合中至少有一個句子在明確地表達實體對的語義關系。深度學習在圖片分類上取得的巨大成功使得人們將其關系抽取任務。深度學習技術在關系抽取中扮演的角色是文本表示學習和特征自動抽取。例如,利用卷積神經網絡去學習句子的表示,然后采用softmax作為分類器。隨后,Zeng等人提出基于分段的卷積神經網絡的句子表示方法。具體地,首先使用卷積網絡對句子建模,獲得句子的初始表示。然后根據實體對在句子中的位置采用分段池化操作。Zheng等人同時考慮實體識別和關系抽取任務,將實體關系聯合抽取建模為序列標注問題。Feng等人采用強化學習從訓練集中選擇干凈的樣本用于訓練,從而避免了數據集中噪聲對模型性能的影響。
政府領域的主題知識除了用于幫助構建政府領域的關系匹配模型,還能幫助評估政府領域的訓練樣本質量和指導負采樣。政府領域的訓練數據集的質量對于政府領域的關系抽取任務非常重要,然而,現有的技術中沒有高效的評估樣本價值的方法和負樣本采樣策略。
同時,現有的工作主要將關系抽取建模為多分類或序列標注問題。在這些工作中,句子的關系類別常常被視作一個可區分的標簽,然后在程序實現時被一個沒有語義的數字代替。這些方法既忽視了關系隱含的豐富語義,也沒有考慮將標簽語義作為關系抽取任務額外的監督,也就很難真正地為每個句子抽取正確或是匹配程度更高的關系標簽。
發明內容
為解決上述問題,提供一種政府治理領域下融合主題知識的深度關系抽取方法,本發明采用了如下技術方案:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010101678.4/2.html,轉載請聲明來源鉆瓜專利網。





