[發(fā)明專利]用于綜合管廊領(lǐng)域的實體信息抽取及知識圖譜構(gòu)建方法有效
| 申請?zhí)枺?/td> | 202010701527.2 | 申請日: | 2020-07-20 |
| 公開(公告)號: | CN111897914B | 公開(公告)日: | 2023-09-19 |
| 發(fā)明(設(shè)計)人: | 朱安安;邱彥林;陳尚武 | 申請(專利權(quán))人: | 杭州敘簡科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/36;G06F40/211;G06F40/295 |
| 代理公司: | 杭州易中元兆專利代理有限公司 33341 | 代理人: | 葉衛(wèi)強 |
| 地址: | 311121 浙江省杭州市余杭區(qū)*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 綜合 領(lǐng)域 實體 信息 抽取 知識 圖譜 構(gòu)建 方法 | ||
1.一種用于綜合管廊領(lǐng)域的實體信息抽取及知識圖譜構(gòu)建方法,其特征在于,包括如下步驟:
步驟(1)、數(shù)據(jù)采集:
基于已有綜合管廊結(jié)構(gòu)化數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)生成綜合管廊相關(guān)數(shù)據(jù),這些數(shù)據(jù)包括已有相關(guān)設(shè)施設(shè)備的結(jié)構(gòu)化數(shù)據(jù),以及通過爬蟲在相關(guān)政府網(wǎng)站、綜合管廊類網(wǎng)站、施工相關(guān)網(wǎng)站采集的綜合管廊相關(guān)文檔信息;這些綜合管廊相關(guān)文檔信息包括規(guī)劃類文檔信息、設(shè)計文檔、施工文檔、法律法規(guī)、政策標(biāo)準(zhǔn)、期刊、專利、報告、百科以及相關(guān)新聞;獲取的數(shù)據(jù)通過收集、清洗、分析、匯總、入庫工作后形成綜合管廊網(wǎng)絡(luò)知識庫;
步驟(2)、數(shù)據(jù)標(biāo)注訓(xùn)練:
根據(jù)上述步驟(1)采集的數(shù)據(jù)信息,選取部分?jǐn)?shù)據(jù)作為訓(xùn)練集進(jìn)行標(biāo)注訓(xùn)練,建立NLP模型;
通過人工篩選標(biāo)注的方式進(jìn)行標(biāo)注,作為訓(xùn)練數(shù)據(jù);
在人工標(biāo)注過程中,對管廊行業(yè)相關(guān)詞進(jìn)行特殊標(biāo)注以便后續(xù)可根據(jù)詞性抽取實體,取“隧道”的英文“tunnel”的前三個字母“tun”作為管廊相關(guān)詞的特殊詞性,方便與其他詞性進(jìn)行區(qū)分;
確定各個實體的屬性分類,在考慮了管廊的特性后暫規(guī)劃的實體屬性有包含名詞解釋、實體設(shè)計、實體施工、實體運維要求、優(yōu)缺點在內(nèi)的共11種屬性以及父、子關(guān)系從屬的上下級關(guān)系;
運用BERT模型對標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,最后用訓(xùn)練好的模型對所有文檔進(jìn)行詞性標(biāo)注;
步驟(3)、實體屬性分類:
建立句子屬性分類模型,對符合三元組抽取的句子進(jìn)行實體屬性分類,得到該被分析句子所包含實體的屬性為哪一種;
步驟(4)、實體抽取:
建立基于語義角色和依存句法關(guān)系的三元組抽取模型,將綜合管廊數(shù)據(jù)通過預(yù)設(shè)模型抽取相關(guān)的實體,并分別抽取所述實體的基本屬性及實體之間的關(guān)系;其中抽取的實體包括實體名稱、基本屬性以及所屬文檔id;
步驟(5)、數(shù)據(jù)存儲:
根據(jù)所述三元組抽取模型,將獲取的所述實體的屬性及實體間邏輯關(guān)系進(jìn)行整合,去除相似及重復(fù)數(shù)據(jù),消除矛盾及歧義數(shù)據(jù),建立準(zhǔn)確的實體連接并存儲于圖數(shù)據(jù)庫中;
步驟(6)、知識圖譜生成:
基于Neo4J圖數(shù)據(jù)庫將所述三元組進(jìn)行存儲后,通過預(yù)設(shè)算法處理圖數(shù)據(jù)庫中的數(shù)據(jù),將所述實體的屬性及實體關(guān)系連接按照實體-關(guān)系-實體的三元組數(shù)據(jù)用圖的方式進(jìn)行展現(xiàn);
在步驟(4)中三元組抽取模型的抽取過程具體如下:
對每句話進(jìn)行語義角色和依存句法分析,對每個詞生成一個該詞的數(shù)組,用以記錄該詞的詞性、父子節(jié)點的詞性及其關(guān)系;
對每個詞性標(biāo)注為‘tun’的詞查找其是否具有語義角色關(guān)系,如存在則進(jìn)入屬性分類判斷其屬性歸屬,然后提取三元組,若不存在則進(jìn)行依存句法分析查詢;
對每個詞進(jìn)行查詢,找出其是否具有主謂賓,動賓,定語后置,缺失賓語情況下的介賓關(guān)系、前置賓語、間接賓語中的某一情況,若存在,先對關(guān)系進(jìn)行擴充,再判斷該關(guān)系結(jié)構(gòu)中存在幾個詞性為‘tun’的詞,若為一個則進(jìn)行屬性分類,若大于一個則進(jìn)行實體間的關(guān)系抽取,最終抽取出該情況下的三元組。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州敘簡科技股份有限公司,未經(jīng)杭州敘簡科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010701527.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





