[發明專利]一種文本特征抽取方法及知識圖譜構建方法有效
| 申請號: | 202110958984.4 | 申請日: | 2021-08-20 |
| 公開(公告)號: | CN113656556B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 曾祥云;朱姬淵 | 申請(專利權)人: | 廣州天宸健康科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/36;G06F40/166;G06F40/30;G06N3/0499;G06N3/08 |
| 代理公司: | 上海碩力知識產權代理事務所(普通合伙) 31251 | 代理人: | 楊松城 |
| 地址: | 510220 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 特征 抽取 方法 知識 圖譜 構建 | ||
本發明公開一種文本特征抽取方法及知識圖譜構建方法,其文本特征抽取方法以標注好的實體和關系為正樣本作為基礎構建負樣本:實體負樣本,關系負樣本和指代消歧負樣本;對正樣本和負樣本進行映射表征,得到實體表征,實體對表征和指代消歧實體對表征構成的向量集;對向量集進行分析,獲取實體特征、指代消歧特征以及關系特征;對實體特征、指代消歧特征以及關系特征進行分類;設置損失函數,對分類結果進行評價,本發明以實體為中心,并輔以指代消歧,解決了因為指代詞非實體造成的實體丟失情況,提升了模型整體的準確性,并融合關系特征,進一步提升關系識別的準確率。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種文本特征抽取方法及知識圖譜構建方法。
背景技術
知識圖譜是一種語義網絡,以圖數據結構的形式來將信息以及關系表示出來,從而用來進一步挖掘信息中隱藏的信息和信息之間的關系。
知識圖譜中的圖,由節點和邊組成,其中的節點用以表示概念和實體,邊表示事物的關系和屬性。如何對輸入或者現有的信息進行知識抽取(包括實體抽取、關系抽取以及屬性抽取),從而獲得知識表示,是下一步構建知識圖譜的基礎和前提。
現有技術中,知識抽取主要有兩種方法,第一種是兩步走算法,也就是需要用兩個模型,第一個模型是命名實體識別模型,用它來抽取句子中的實體。然后再用一個模型對抽取的實體進行關系分類。
第二種是一步走算法,也就是用一個聯合模型,采用多任務學習框架,把實體識別和關系分類兩個任務融合在一個框架。
一步走算法的模型利用特征之間共享,在準確率和整體速度方面,更具有優勢。但是,現有一步走算法的關系抽取算法主要圍繞實體關系對來設計特征抽取模型,很少把焦點放在以實體為核心的特征抽取設計上,因此造成了關系抽取最終的準確率并不高,降低了后續的關系分類任務的準確率。
此外,現有的方法處理難以處理好文本中實體的指代問題,造成特征的丟失。
發明內容
本發明為解決現有技術中存在的技術問題,提出一種文本特征抽取方法及知識圖譜構建方法。
為了實現以上目的,本發明提出了一種文本特征抽取方法,包括如下步驟:
以標注好的實體和關系為正樣本作為基礎構建負樣本:實體負樣本,關系負樣本和指代消歧負樣本;
對正樣本和負樣本進行映射表征,得到實體表征,實體對表征和指代消歧實體對表征構成的向量集;
對向量集進行分析,獲取實體特征、指代消歧特征以及關系特征;
對實體特征、指代消歧特征以及關系特征進行分類;
設置損失函數,對分類結果進行評價。
進一步地,所述構建實體負樣本為基于人工標注的實體,構建得到的子實體,所述的子實體被原實體包含,子實體字數少于原實體。
進一步地,所述構建實體負樣本為基于人工標注的實體,構建得到的擴展實體,所述的擴展實體包含原實體,但字數大于原實體。
進一步地,所述構建關系負樣本為隨機使用未在人工標注有關系的實體對來構建。
進一步地,所述構建關系負樣本為在人工標注的實體對中,隨機改變關系的類型,使得實體關系的整體和原來不一樣。
進一步地,所述構建指代消歧負樣本為在同一個段落中,選取在不同句子中,沒有關系的實體對作為負樣本。
進一步地,對正樣本和負樣本進行映射表征,得到實體表征,實體對表征和指代消歧實體對表征構成的向量集,具體為:
實體表征通過采用bert標注和隨機初始化表征相融合獲得;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州天宸健康科技有限公司,未經廣州天宸健康科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110958984.4/2.html,轉載請聲明來源鉆瓜專利網。





