[發明專利]一種文本特征抽取方法及知識圖譜構建方法有效
| 申請號: | 202110958984.4 | 申請日: | 2021-08-20 |
| 公開(公告)號: | CN113656556B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 曾祥云;朱姬淵 | 申請(專利權)人: | 廣州天宸健康科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/36;G06F40/166;G06F40/30;G06N3/0499;G06N3/08 |
| 代理公司: | 上海碩力知識產權代理事務所(普通合伙) 31251 | 代理人: | 楊松城 |
| 地址: | 510220 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 特征 抽取 方法 知識 圖譜 構建 | ||
1.一種文本特征抽取方法,其特征是,包括如下步驟:
以標注好的實體和關系為正樣本作為基礎構建負樣本:實體負樣本,關系負樣本和指代消歧負樣本;
對正樣本和負樣本進行映射表征,得到實體表征,實體對表征和指代消歧實體對表征構成的向量集,具體為:
實體表征通過采用bert標注和隨機初始化表征相融合的表征方式,獲得融合表征;
實體對表征通過把實體對中包含的字,在融合表征中索引出來對應的字特征,再把字特征放入一個多層的神經網絡,把特征映射到統一空間,隨機初始化語義向量獲得;
指代消歧實體對表征采用實體對的編輯距離語義向量和實體對包含的字向量相融合獲得;
對向量集進行分析,獲取實體特征、指代消歧特征以及關系特征,具體為:
實體特征:基于bert模型對句子進行特征抽取,得到每個字的特征,再對非實體關鍵字的特征進行屏蔽,得到包含實體字的特征E1,再把實體的長度用向量表示得到長度特征E2,把特征E1和特征E2進行拼接得到特征E3;
指代消歧特征:計算指代的實體對之間的編輯距離,對編輯距離進行特征嵌入,得到特征向量R1,將特征R1和實體的BERT特征E1進行拼接,得到特征R2;
關系特征:
將實體對用向量表示到特征P1,對實體對中的第二個實體首字的位置和第一個實體首字的位置之差進行嵌入,得到特征P2;
對第二個實體首字的位置和第一個實體最后一個字的位置進行之差嵌入,得到特征P3;用bert抽取出來的整個句子,得到特征S1;
并將特征P1、特征P2、特征P3、特征S1和特征E1進行拼接得到特征S2;
對實體特征、指代消歧特征以及關系特征進行分類;
設置損失函數,對分類結果進行評價。
2.如權利要求1所述的文本特征抽取方法,其特征是,所述構建實體負樣本為基于人工標注的實體,構建得到的子實體,所述的子實體被原實體包含,子實體字數少于原實體。
3.如權利要求1所述的文本特征抽取方法,其特征是,所述構建實體負樣本為基于人工標注的實體,構建得到的擴展實體,所述的擴展實體包含原實體,但字數大于原實體。
4.如權利要求1所述的文本特征抽取方法,其特征是,所述構建關系負樣本為隨機使用未在人工標注有關系的實體對來構建。
5.如權利要求1所述的文本特征抽取方法,其特征是,所述構建關系負樣本為在人工標注的實體對中,隨機改變關系的類型,使得實體關系的整體和原來不一樣。
6.如權利要求1所述的文本特征抽取方法,其特征是,所述構建指代消歧負樣本為在同一個段落中,選取在不同句子中,沒有關系的實體對作為負樣本。
7.如權利要求1所述的文本特征抽取方法,其特征是,對實體特征、指代消歧特征以及關系特征進行分類包括:
在特征E3后接第一神經網絡和分類器C1對實體的位置進行分類,同時在第一神經網絡后再接一個分類器C2對實體的類型進行分類;
在特征R2后接第二神經網絡和分類器C3,對指代消歧的實體對進行分類;
在特征S2后接第三神經網絡和分類器C4,對實體關系進行分類。
8.一種知識圖譜的構建方法,包括:
獲取待創建知識圖譜所屬知識領域的文本;
對文本的進行知識抽取;
將多個知識庫進行融合,形成知識圖譜;
其特征在于,所述知識抽取中,對文本的特征抽取采用權利要求1-7中任一方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州天宸健康科技有限公司,未經廣州天宸健康科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110958984.4/1.html,轉載請聲明來源鉆瓜專利網。





