[發(fā)明專利]太赫茲知識圖譜構(gòu)建方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010913050.4 | 申請日: | 2020-09-03 |
| 公開(公告)號: | CN111813874B | 公開(公告)日: | 2023-09-15 |
| 發(fā)明(設(shè)計)人: | 蔡娟娟;陳蝶榕;李傳珍;吳曉潔;王暉 | 申請(專利權(quán))人: | 中國傳媒大學(xué) |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/35;G06F16/36;G06F40/295;G06F18/25;G06N3/048;G06N3/0442;G06N3/09 |
| 代理公司: | 北京鴻元知識產(chǎn)權(quán)代理有限公司 11327 | 代理人: | 張超艷;董永輝 |
| 地址: | 100024 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 赫茲 知識 圖譜 構(gòu)建 方法 系統(tǒng) | ||
1.一種太赫茲知識圖譜構(gòu)建方法,其特征在于,包括:
數(shù)據(jù)采集,包括:構(gòu)建知識圖譜的整體框架,所述整體框架包括實(shí)體類別、屬性類別及各實(shí)體類別間的關(guān)系,將實(shí)體類別劃分為第一實(shí)體類別、第二實(shí)體類別和第三實(shí)體類別,第一實(shí)體類別是從數(shù)據(jù)源直接采集所有實(shí)體屬性信息的實(shí)體類別,第二實(shí)體類別是從第一實(shí)體類別采集到的信息中抽取得到實(shí)體,而后通過第三方數(shù)據(jù)源進(jìn)一步擴(kuò)充實(shí)體屬性的實(shí)體類別,第三實(shí)體類別為根據(jù)現(xiàn)有信息給定的實(shí)體,按照是否存在子實(shí)體類別分別將第二實(shí)體類別和第三實(shí)體類別劃分為第二單實(shí)體類別、第二多實(shí)體類別、第三單實(shí)體類別和第三多實(shí)體類別,通過第一實(shí)體類別對應(yīng)數(shù)據(jù)源采集信息,其中,實(shí)體是客觀存在并可相互區(qū)分的事物,所述實(shí)體類別是同類實(shí)體的集合,所述屬性類別是一個類別的實(shí)體具有的屬性信息,所述實(shí)體類別間的關(guān)系是設(shè)定的實(shí)體類別間符合語義邏輯的關(guān)系;
知識抽取,對采集的信息根據(jù)所述整體框架進(jìn)行數(shù)據(jù)抽取;
知識融合,對整體框架及其對應(yīng)的抽取的數(shù)據(jù)進(jìn)行融合,形成知識圖譜;
其中,所述知識抽取的步驟包括:
實(shí)體抽取,基于整體框架中實(shí)體類別間的關(guān)系,找到與采集信息對應(yīng)的第一實(shí)體類別有關(guān)系的其他第一實(shí)體類別、第二單實(shí)體類別和第三單實(shí)體類別,根據(jù)第一實(shí)體類別、第二單實(shí)體類別和第三單實(shí)體類別的屬性類別對采集的信息進(jìn)行實(shí)體抽取,包括:將采集的信息中的數(shù)據(jù)進(jìn)行分類,所述分類包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);對于結(jié)構(gòu)化數(shù)據(jù)通過其數(shù)據(jù)字段得到實(shí)體;對于非結(jié)構(gòu)化數(shù)據(jù)基于規(guī)則的最大正向匹配法識別實(shí)體;對于半結(jié)構(gòu)化的數(shù)據(jù)采用基于正則表達(dá)式和模板的方式提取實(shí)體;
關(guān)系抽取,采用模式匹配的方式在結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)上抽取實(shí)體間的關(guān)系;對于非結(jié)構(gòu)化數(shù)據(jù),基于實(shí)體抽取時的規(guī)則采用模式匹配的方式抽取實(shí)體間的關(guān)系,所述實(shí)體間的關(guān)系屬于所述實(shí)體類別間的關(guān)系;
關(guān)系和實(shí)體分類,基于整體框架中實(shí)體類別間的關(guān)系,找到與采集信息對應(yīng)的第一實(shí)體類別有關(guān)系的第二多實(shí)體類別和第三多實(shí)體類別,基于雙向LSTM的多標(biāo)簽分類法獲得所述信息所屬的第二多實(shí)體類別和第三多實(shí)體類別的子實(shí)體類別;其中,所述基于雙向LSTM的多標(biāo)簽分類法獲得所述信息所屬的第二多實(shí)體類別和第三多實(shí)體類別的子實(shí)體類別的步驟包括:
分別設(shè)定第二多實(shí)體類別和第三多實(shí)體類別的各子實(shí)體類別的分類要使用的信息;
通過翻譯接口將當(dāng)前分類要使用的信息進(jìn)行格式統(tǒng)一;
利用格式統(tǒng)一后的相關(guān)信息訓(xùn)練領(lǐng)域詞向量庫,所述領(lǐng)域詞向量庫是太赫茲領(lǐng)域的詞向量庫;
通過領(lǐng)域詞向量庫獲得分類要使用的信息中每個詞的詞向量;
將每個樣本的分類要使用的信息通過詞嵌入層將表示成向量嵌入的形式;
將嵌入形式的每個樣本序列輸入雙向LSTM,獲得每個樣本序列的上下文信息作為分類特征;
將LSTM層提取到的分類特征輸入池化層和全連接層,進(jìn)行特征選擇和降維,保留與分類相關(guān)的核心特征;
將所述分類相關(guān)的核心特征輸入分類器,獲得信息與每個子實(shí)體類別的置信度;
根據(jù)預(yù)設(shè)的置信度閾值,將信息歸屬到超過所述置信度閾值的子實(shí)體類別。
2.根據(jù)權(quán)利要求1所述的太赫茲知識圖譜構(gòu)建方法,其特征在于,在所述知識抽取步驟之前還包括數(shù)據(jù)清洗的步驟,所述數(shù)據(jù)清洗的步驟包括:
刪除重復(fù)數(shù)據(jù)和無效數(shù)據(jù),獲得有效記錄字段,所述無效數(shù)據(jù)是針對實(shí)體類別的關(guān)鍵字段缺失的數(shù)據(jù),所述關(guān)鍵字段是實(shí)體類別必不可少的信息;
剔除有效記錄字段中的雜質(zhì)數(shù)據(jù),所述雜質(zhì)數(shù)據(jù)為類亂碼和無關(guān)符號的數(shù)據(jù);
對齊異構(gòu)數(shù)據(jù)源數(shù)據(jù)字段;
統(tǒng)一數(shù)據(jù)編碼格式。
3.根據(jù)權(quán)利要求1所述的太赫茲知識圖譜構(gòu)建方法,其特征在于,所述知識融合步驟之后還包括知識推理步驟,所述知識推理步驟采用通過演繹推理對實(shí)體間的關(guān)系進(jìn)行挖掘。
4.根據(jù)權(quán)利要求1所述的太赫茲知識圖譜構(gòu)建方法,其特征在于,所述知識融合的步驟包括:
對實(shí)體的形式進(jìn)行統(tǒng)一;
通過數(shù)據(jù)庫字段映射,對不同來源的實(shí)體進(jìn)行數(shù)據(jù)融合,豐富實(shí)體的屬性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國傳媒大學(xué),未經(jīng)中國傳媒大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010913050.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識圖譜的構(gòu)建方法、裝置、知識圖譜系統(tǒng)及設(shè)備
- 一種基于知識圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種用于創(chuàng)建知識圖譜的計算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計算方法
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





