[發明專利]基于句義結構模型的開放式實體關系抽取方法在審
| 申請號: | 201810234056.1 | 申請日: | 2018-03-21 |
| 公開(公告)號: | CN108363816A | 公開(公告)日: | 2018-08-03 |
| 發明(設計)人: | 羅森林;尹繼澤;潘麗敏;郭佳;吳舟婷 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體關系 句子相似度 置信度 矩陣 抽取規則 結構模型 句子組 三元組 相似度 句義 微博 抽取 信息科學技術 詞性標注 分析工具 規則確定 候選實體 計算規則 計算實體 加權融合 句法解析 合并 評測 關系詞 結合組 停用詞 再利用 冗余 準確率 分詞 分句 語料 句子 篩選 計算機 | ||
1.基于句義結構模型的開放式實體關系抽取方法,其特征在于所述方法包括如下步驟:
步驟1,對微博數據進行預處理,包括:提取微博數據的正文,對微博數據的正文進行分句、分詞、去停用詞和詞性標注,然后利用依存分析工具,得到依存句法解析樹;
步驟2,結合基本名詞短語規則、關系詞抽取規則和論元抽取規則抽取實體關系三元組,然后通過置信度計算規則,對實體關系三元組進行篩選,生成實體關系對候選集;
步驟3,基于CSM計算句子相似度得到Sim1,基于PV計算句子相似度得到Sim2,然后進行相似度加權融合得到句子相似度,進而得到句子相似度矩陣;
步驟4,根據句子相似度矩陣和相似度閾值劃分相似句子組,然后結合組內句子包含的實體關系對與其對應的置信度,合并組內實體關系對,獲得最終結果。
2.根據權利要求1所述的基于句義結構模型的開放式實體關系抽取方法,其特征在于:步驟2中計算實體關系對的置信度時,所選特征包括:關系詞在兩論元中間、兩論元在關系詞一側、ER對存在VOB路徑、ER對存在FOB路徑,論元與關系詞之間的距離。
3.根據權利要求1所述的基于句義結構模型的開放式實體關系抽取方法,其特征在于:步驟2中計算實體關系對的置信度時,特征“論元與關系詞之間的距離”對應的權重Dis計算方法如式1所示:
其中e1、e2分別是實體關系對中的兩個論元,r是實體關系對中的關系詞,dis(e1,e2)表示兩個論元在句子中的距離,即二者之間詞的個數,dis(e1,r)表述論元e1和關系詞r在句子中的距離,dis(r,e2)表示關系詞r與論元e2在句子中的距離。
4.根據權利要求1所述的基于句義結構模型的開放式實體關系抽取方法,其特征在于:步驟3和步驟4中基于CSM計算句子相似度得到Sim1,基于PV計算句子相似度得到Sim2,然后進行相似度加權融合得到句子相似度,進而得到句子相似度矩陣,根據句子相似度矩陣和相似度閾值劃分相似句子組,然后結合組內句子包含的實體關系對與其對應的置信度,合并組內實體關系對,實現實體關系結果降冗余。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810234056.1/1.html,轉載請聲明來源鉆瓜專利網。





