[發明專利]基于遠程監督和提示學習的實體屬性生成方法及系統在審
| 申請號: | 202211474722.1 | 申請日: | 2022-11-23 |
| 公開(公告)號: | CN115878813A | 公開(公告)日: | 2023-03-31 |
| 發明(設計)人: | 曾山松;張磊;余安東;胡佳 | 申請(專利權)人: | 電信科學技術第五研究所有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295;G06F16/28;G06F18/24;G06F18/214;G06N5/022;G06N20/00 |
| 代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 楊春 |
| 地址: | 610000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 遠程 監督 提示 學習 實體 屬性 生成 方法 系統 | ||
本發明公開了基于遠程監督和提示學習的實體屬性生成方法及系統,涉及知識圖譜領域,方法包括S1構建知識圖譜;S2實體e、e的ake、及ave組成的三元組,在開放文檔庫D中檢索e和ave,召回文本集合De;S3將De中正確表達ake的de標注為正例文本se,集合C為三元組與se組成的四元組集合;S4獲取文本x;S5識別x中e,抽取e的ake;S6將x、e和ake轉化成xprompt;S7獲得實體的屬性值;系統包括知識圖譜、開放文檔數據庫、提示學習模板引擎、預訓練語言模塊和實體識別模塊;將提示學習用于實體屬性抽取中,以有效解決了傳統分類器存在的問題。
技術領域
本發明涉及知識圖譜領域,尤其涉及一種基于遠程監督和提示學習的實體屬性生成方法及系統。
背景技術
知識構建技術是整個知識圖譜技術的基石,知識構建包括從結構化的數據中導入知識和非結構化的文檔中抽取知識。互聯網的開放世界中存在大量的非結構化數據,研究如何從非結構化的文檔中構建知識十分必要,從非結構化文檔中抽取知識需要抽取出文檔中的實體、屬性、關系和事件等知識要素。其中屬性抽取作為知識抽取的重要手段,引起許多研究者的關注,現有的方法通常將屬性抽取視為關系抽取任務,關系抽取任務常基于分類的方法,首先識別出文本中的各個實體,再將文本的語義表示特征輸入分類器中,對文本中兩兩實體的關系進行分類,將基于分類的方法用于屬性抽取,主要存在以下兩個問題:
1.屬性抽取不同于關系抽取,需要抽取的屬性值可能不是嚴格意義的實體類型,而是一個自由文本片段,而基于分類器的關系抽取方法只能抽取兩個已知實體之間的關系。
2.基于分類的方法利用預訓練模型進行關系抽取時需要精心設計分類器,工作十分繁瑣。
發明內容
本發明的目的就在于為了解決上述問題設計了一種基于遠程監督和提示學習的實體屬性生成方法及系統。
本發明通過以下技術方案來實現上述目的:
基于遠程監督和提示學習的實體屬性生成方法,包括:
S1、構建知識圖譜G={E,R,A},其中E為知識圖譜中各個實體的集合,R為知識圖譜中各個關系的集合,A={a}為知識圖譜中各個屬性組成的集合,a是一個包含屬性名ak和屬性值av的二元組;
S2、利用遠程監督方法,將圖譜中的實體e∈E、實體e的屬性名ake、及其屬性名ake對應的屬性值ave組成的三元組(e,ake,ave)作為種子,通過實體e和屬性值ave到開放文檔庫D中去檢索,召回同時包含實體e和屬性值ave的文本集合De={de};
S3、將文本集合De中能夠正確表達屬性類型ake的文本de標注為正例se∈Se,定義集合C={(e,ake,ave,se)}為知識圖譜中所有種子三元組(e,ake,ave)召回的正例文本se組成的四元組集合;
S4、獲取待生成實體屬性的文本x;
S5、利用實體識別模型識別文本x中每個實體e,并抽取實體e的屬性名ake;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電信科學技術第五研究所有限公司,未經電信科學技術第五研究所有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211474722.1/2.html,轉載請聲明來源鉆瓜專利網。





