[發明專利]一種基于遠程關系抽取的信息獲取方法和系統有效
| 申請號: | 201910566562.5 | 申請日: | 2019-06-27 |
| 公開(公告)號: | CN110377690B | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 陳雨婷;劉旭紅;劉秀磊 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/36;G06F16/958;G06F40/211;G06F40/216;G06F40/295;G06F40/30 |
| 代理公司: | 北京庚致知識產權代理事務所(特殊普通合伙) 11807 | 代理人: | 李曉輝 |
| 地址: | 100101 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 遠程 關系 抽取 信息 獲取 方法 系統 | ||
1.一種基于遠程關系抽取的信息獲取系統,該信息獲取系統包括信息檢索模塊、情報獲取模塊和情報分析模塊,其特征在于:
信息檢索模塊根據情報獲取需求搜集網絡文本信息,得到大量不同領域的網頁數據內容,獲得信息檢索結果;
情報獲取模塊基于所述信息檢索結果,通過web文本挖掘實現信息抽取,獲取初級情報;
情報分析模塊通過對所述初級情報進行統計、分析與可視化處理,獲得最終情報;
所述通過web文本挖掘實現信息抽取,具體包括對結構化數據的信息抽取,和對非結構化數據的信息抽取;
所述對非結構化數據的信息抽取,具體包括:
步驟1,對目標網站中各文檔進行數據清洗預處理;
步驟2,對文檔進行詞法、句法分析以及序列標注處理,并獲得序列標注結果;
步驟3,根據獲得的所述序列標注結果,抽取其中的候選實體,并結合領域知識庫進行實體鏈接,以實現知識融合;
步驟4,對各句中的候選實體進行笛卡爾積運算,結合限制條件,得到對應的候選實體對集合V,實體對(A,B)∈V,其中A為候選人,B為候選人代理方;
步驟5,根據步驟2中的所述序列標注結果和步驟4中的所述候選實體對集合V,提取基于候選實體對上下文的語義特征;
步驟6,采用遠程監督方法構建部分訓練數據,通過與領域知識庫對齊,提供候選實體對的關系標簽,再引入領域知識規則以提高標注質量;
步驟7,以步驟5中的提取的所述基于候選實體對上下文的語義特征和步驟6中的構建的所述部分訓練數據作為輸入,構建因子圖模型,統計推理候選實體對間具備指定關系的置信度;其間迭代使用吉布斯采樣和隨機梯度下降算法學習得到候選實體對的特征權重及邊界概率,最終抽取置信度高于規定閾值的候選實體對;
步驟8,基于步驟7中抽取的所述置信度高于規定閾值的候選實體對,并結合通過上下位關系抽取所得的關系構建知識網絡,并生成可視化情報圖譜。
2.根據權利要求1所述的信息獲取系統,其特征在于,所述對文檔進行詞法、句法分析以及序列標注處理,具體包括:包括中文分詞、詞性標注、命名實體識別、依賴性解析處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910566562.5/1.html,轉載請聲明來源鉆瓜專利網。





