[發(fā)明專利]領域知識圖譜本體和數(shù)據(jù)的構建方法、裝置和系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010639157.4 | 申請日: | 2020-07-06 |
| 公開(公告)號: | CN111930856B | 公開(公告)日: | 2023-02-21 |
| 發(fā)明(設計)人: | 鄂海紅;宋美娜;馬超童;韓鵬昊;畢秋波 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28 |
| 代理公司: | 北京清亦華知識產(chǎn)權代理事務所(普通合伙) 11201 | 代理人: | 石茵汀 |
| 地址: | 100876 北京市海淀區(qū)西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 領域 知識 圖譜 本體 數(shù)據(jù) 構建 方法 裝置 系統(tǒng) | ||
1.一種領域知識圖譜本體和數(shù)據(jù)的構建方法,其特征在于,包括:
確定目標領域,并獲取與所述目標領域對應的領域知識庫,根據(jù)所述領域知識庫和目標設備發(fā)送的領域專家意見信息形成多層級標簽體系的領域知識圖譜本體雛形;
確定概念及其層級、概念的屬性和概念間的關系,并根據(jù)所述概念、所述概念的屬性、所述概念間關系以及所述層級,對所述領域知識圖譜本體雛形進行處理,生成領域本體知識表示;
獲取與所述目標領域對應的目標文本,通過預設實體抽取模型、關系抽取模型或聯(lián)合抽取模型,對所述目標文本進行自動化實體抽取和關系抽取,分別識別出命名實體和關系實例,并進行分類;
獲取分類失敗的語料中的候選短語,并獲取所述候選短語的統(tǒng)計指標特征,根據(jù)所述統(tǒng)計指標特征計算所述候選短語的質量評分,并將所述候選短語以及對應的質量評分發(fā)送給目標設備;
接收所述目標設備發(fā)送的經(jīng)過領域專家篩選的目標短語,并將所述目標短語添加到所述領域本體知識表示或領域實例庫;
獲取分類成功的命名實體和關系實例,通過篩選或直接添加到所述領域實例庫。
2.如權利要求1所述的領域知識圖譜本體和數(shù)據(jù)的構建方法,其特征在于,所述目標文本為:
結構化文本、半結構化文本和非結構化文本中的一種或者多種。
3.如權利要求1所述的領域知識圖譜本體和數(shù)據(jù)的構建方法,其特征在于,所述將目標短語添加到所述領域本體知識表示,包括:
確定所述候選短語為新標簽,則確定新標簽節(jié)點對應的父節(jié)點和子節(jié)點,將所述新標簽節(jié)點添加到父節(jié)點和子節(jié)點之間;
確定所述候選短語為新實體,則確定新實體節(jié)點對應的父節(jié)點,將所述新實體節(jié)點添加到父節(jié)點下面;
確定所述候選短語為新關系,則確定關系主體和關系客體的對應節(jié)點,向所述領域本體知識表示中添加新的關系三元組。
4.如權利要求1所述的領域知識圖譜本體和數(shù)據(jù)的構建方法,其特征在于,所述確定概念及其層級,確定所述概念的屬性和概念間關系,并根據(jù)所述概念、所述概念的屬性、所述概念間關系以及所述層級,對所述領域知識圖譜本體雛形進行處理,生成領域本體知識表示,包括:
設置所述目標領域為根節(jié)點,各級標簽作為層次化的中間節(jié)點,以及各個實體作為葉子節(jié)點;
每個節(jié)點設置有唯一標識符、節(jié)點特征、標簽/實體概念名稱和節(jié)點類型;
設置描述實體屬性的對象數(shù)組,由屬性名和屬性取值類型兩個字段組成,該對象數(shù)組為實體概念層節(jié)點的特有屬性,標簽層節(jié)點默認此對象數(shù)組為空;
設置多層級標簽體系節(jié)點父子關系的對象數(shù)組,該對象數(shù)組為標簽層節(jié)點的特有屬性,實體概念層節(jié)點默認此對象數(shù)組為空;
設置關系體系的三元組集合,從所述實體概念層節(jié)點中選取關系主體和關系客體,并建立一條由所述關系主體指向所述關系客體的有向邊,并設置描述實體關系屬性的對象數(shù)組,其中,所述有向邊的名稱為關系類別;
根據(jù)上述設置獲取所述領域本體知識表示。
5.一種領域知識圖譜本體和數(shù)據(jù)的構建裝置,其特征在于,包括;
確定模塊,用于確定目標領域;
獲取形成模塊,用于獲取與所述目標領域對應的領域知識庫,根據(jù)所述領域知識庫和目標設備發(fā)送的領域專家意見信息形成多層級標簽體系的領域知識圖譜本體雛形;
確定生成模塊,用于確定概念及其層級、概念的屬性和概念間的關系,并根據(jù)所述概念、所述概念的屬性、所述概念間關系以及所述層級,對所述領域知識圖譜本體雛形進行處理,生成領域本體知識表示;
獲取抽取模塊,用于獲取與所述目標領域對應的目標文本,通過預設實體抽取模型、關系抽取模型或聯(lián)合抽取模型,對所述目標文本進行自動化實體抽取和關系抽取,分別識別出命名實體和關系實例,并進行分類;
獲取發(fā)送模塊,用于獲取分類失敗的語料中的候選短語,并獲取所述候選短語的統(tǒng)計指標特征,根據(jù)所述統(tǒng)計指標特征計算所述候選短語的質量評分,并將所述候選短語以及對應的質量評分發(fā)送給目標設備;
接收添加模塊,用于接收所述目標設備發(fā)送的經(jīng)過領域專家篩選的目標短語,并將所述目標短語添加到所述領域本體知識表示或領域實例庫;
處理模塊,用于獲取分類成功的命名實體和關系實例,通過篩選或直接添加到所述領域實例庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經(jīng)北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010639157.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





