[發明專利]標注知識圖譜實體的方法,裝置,存儲介質及電子設備有效
| 申請號: | 201911381946.6 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111159424B | 公開(公告)日: | 2023-06-06 |
| 發明(設計)人: | 賀語 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 曾堯 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 知識 圖譜 實體 方法 裝置 存儲 介質 電子設備 | ||
本公開涉及一種標注知識圖譜實體的方法,裝置,存儲介質及電子設備,以解決相關技術中存在的問題。該方法包括:確定待構建知識圖譜的目標結構,并從已有知識圖譜中獲取結構與所述目標結構相同的子圖;根據所述子圖對應的已標注實體以及所述待構建知識圖譜對應的待標注實體,生成目標自編碼器,并根據所述已標注實體訓練分類模型;根據所述目標自編碼器對所述待標注實體進行編碼,得到每一所述待標注實體的特征向量;將每一所述待標注實體的特征向量輸入所述分類模型進行分類;基于所述分類結果,將屬于同一分類的待標注實體標注為同一名稱。
技術領域
本公開涉及數據處理領域,具體地,涉及一種標注知識圖譜實體的方法,裝置,存儲介質及電子設備。
背景技術
知識圖譜(Knowledge?Graph)是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互間的關系,其基本組成單位是三元組。具體地,我們可以把三元組理解為(實體entity,實體關系relation,實體entity),若將實體看做結點把實體關系(包括屬性,類別等)看做一條邊,實體之間通過實體關系相互聯結,構成網狀的知識結構,如此包含了大量三元組的知識庫就成為了一個龐大的知識圖譜。
相關技術中,構建知識圖譜之前,需對語料進行標注。所謂語料標注是指對任意數量的語篇中的語言進行加工,把各種表征語言特征的附碼標注在相應的語言成分上,以便于計算機的識讀。例如對原始的自然語言文本數據進行分詞處理,然后人工進行詞性、詞類的分類處理。由于用于構建知識圖譜的語料多且復雜,因此,語料標注環節的工作量巨大,需要大量的人員花費大量的時間才能完成語料標注,如此導致人工成本巨大。
發明內容
本公開的目的是提供一種標注知識圖譜實體的方法,裝置,存儲介質及電子設備,以解決相關技術中存在的問題。
為了實現上述目的,根據本公開實施例的第一方面,提供一種標注知識圖譜實體的方法,包括:
確定待構建知識圖譜的目標結構,并從已有知識圖譜中獲取結構與所述目標結構相同的子圖;
根據所述子圖對應的已標注實體以及所述待構建知識圖譜對應的待標注實體,生成目標自編碼器,并根據所述已標注實體訓練分類模型;
根據所述目標自編碼器對所述待標注實體進行編碼,得到每一所述待標注實體的特征向量;
將每一所述待標注實體的特征向量輸入所述分類模型進行分類;
基于所述分類結果,將屬于同一分類的待標注實體標注為同一名稱。
可選地,所述分類模型是通過如下方式訓練得到的:
根據所述目標自編碼器對所述已標注實體進行編碼,得到每一所述已標注實體的特征向量;
根據所述已標注實體的特征向量以及所述已標注實體的真實標注信息構建訓練樣本對所述分類模型進行訓練,直到所述分類模型對所述已標注實體的特征向量分類得到的結果與所述已標注實體的真實標注信息相符。
可選地,所述目標自編碼器是通過如下方式得到的:
根據所述已標注實體訓練得到第一自編碼器,并根據所述待標注實體訓練得到第二自編碼器,其中,所述第二自編碼器與所述第一自編碼器的維度相同;
將第一特征向量集合和第二特征向量集合輸入二分類機進行分類,并確定所述二分類機的分類結果中,每一類中的所述第一特征向量的占比,所述第一特征向量集合是所述第一自編碼器對所述已標注實體編碼得到的,所述第二特征向量集合是所述第二自編碼器對所述待標注實體編碼得到的;
通過對所述第二自編碼器的超參數進行調整,使得所述二分類機的分類結果中,每一類中的所述第一特征向量占比處于預設范圍,并將調整后的所述第二自編碼器作為所述目標自編碼器。
可選地,所述目標自編碼器是通過如下方式得到的:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911381946.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種肝臟圖像識別方法、電子設備及存儲介質
- 下一篇:一種鐵基材料的改性方法





