[發(fā)明專利]一種產(chǎn)業(yè)鏈知識(shí)圖譜的知識(shí)融合方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110330349.1 | 申請(qǐng)日: | 2021-03-29 |
| 公開(公告)號(hào): | CN113157940A | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 包盛;陶敬偉;楊謙 | 申請(qǐng)(專利權(quán))人: | 上海融盈數(shù)據(jù)科技有限公司 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F16/28;G06F40/216;G06F40/289 |
| 代理公司: | 上海樂(lè)泓專利代理事務(wù)所(普通合伙) 31385 | 代理人: | 王瑞 |
| 地址: | 201200 上海市浦東*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 產(chǎn)業(yè)鏈 知識(shí) 圖譜 融合 方法 | ||
本發(fā)明涉及知識(shí)圖譜構(gòu)建技術(shù)領(lǐng)域,尤其是一種產(chǎn)業(yè)鏈知識(shí)圖譜的知識(shí)融合方法,通過(guò)對(duì)獲取外部產(chǎn)業(yè)鏈中的半結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)進(jìn)行提取、分詞和分組,并且基于每個(gè)單詞的權(quán)重構(gòu)建向量空間模型(VSM),通過(guò)余弦相似度的計(jì)算方法,對(duì)于知識(shí)圖譜中的實(shí)體進(jìn)行實(shí)體識(shí)別、歧義消解和指代消解,從而對(duì)于產(chǎn)業(yè)鏈知識(shí)圖譜的實(shí)體進(jìn)行去重,獲得更加準(zhǔn)確的數(shù)據(jù)。
技術(shù)領(lǐng)域
本屬于知識(shí)圖譜構(gòu)建技術(shù)領(lǐng)域,具體來(lái)說(shuō)是一種產(chǎn)業(yè)鏈知識(shí)圖譜的知識(shí)融合方法。
背景技術(shù)
知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò),用圖的形式描述客觀事物,圖由節(jié)點(diǎn)和邊組成的。知識(shí)圖譜中的節(jié)點(diǎn)表示概念和實(shí)體,概念是抽象出來(lái)的事物,實(shí)體是具體的事物;邊表示事物的關(guān)系和屬性,事物的內(nèi)部特征用屬性來(lái)表示,外部聯(lián)系用關(guān)系來(lái)表示。知識(shí)圖譜以“實(shí)體-關(guān)系-實(shí)體”或“實(shí)體-屬性-屬性值”的三元組存儲(chǔ),形成一個(gè)圖狀知識(shí)庫(kù)。
在進(jìn)行產(chǎn)業(yè)鏈知識(shí)圖譜構(gòu)建時(shí),會(huì)碰到很多漢語(yǔ)命名的實(shí)體識(shí)別和實(shí)體名稱歧義。比如實(shí)體名稱會(huì)有多種不同的表示方法,上市公司萬(wàn)科的名稱有:萬(wàn)科、萬(wàn)科集團(tuán)、萬(wàn)科A、萬(wàn)科股份有限公司等等。萬(wàn)科主營(yíng)業(yè)務(wù)的名稱有:房地產(chǎn)、房地產(chǎn)開發(fā)、房地產(chǎn)建設(shè)、房地產(chǎn)相關(guān)業(yè)務(wù)等多種表示方法。這樣對(duì)于我們構(gòu)建的知識(shí)圖譜會(huì)產(chǎn)生大量的重名和多名現(xiàn)象。因此需要對(duì)知識(shí)圖譜中的實(shí)體進(jìn)行實(shí)體識(shí)別、歧義消解和指代消解,從而對(duì)于產(chǎn)業(yè)鏈知識(shí)圖譜的構(gòu)建獲得更有價(jià)值的數(shù)據(jù)。
發(fā)明內(nèi)容
1.發(fā)明要解決的技術(shù)問(wèn)題
本發(fā)明的目的在于解決現(xiàn)有的如何精準(zhǔn)地對(duì)知識(shí)圖譜中的實(shí)體進(jìn)行實(shí)體識(shí)別、歧義消解和指代消解的問(wèn)題。
2.技術(shù)方案
為達(dá)到上述目的,本發(fā)明提供的技術(shù)方案為:一種產(chǎn)業(yè)鏈知識(shí)圖譜的知識(shí)融合方法包括如下步驟:
S1、數(shù)據(jù)獲取,對(duì)外部某個(gè)產(chǎn)業(yè)鏈的資源文件進(jìn)行加載讀取,獲取該產(chǎn)業(yè)鏈中上市公司的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);
S2、信息抽取,對(duì)獲取的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實(shí)體抽取、屬性抽取和關(guān)系抽取,生成一系列的三元組;
S3、知識(shí)融合,構(gòu)建向量空間模型(VSM),并計(jì)算不同三元組之間的相似度,并進(jìn)行去重和消歧,包括如下步驟,
S31、分詞分組,將每個(gè)三元組看成一句話,并進(jìn)行分詞;再把所有的三元組進(jìn)行分組,將需要進(jìn)行去重和消歧的三元組分為同一組;
S32、構(gòu)建向量空間模型,列出所有的詞并計(jì)算詞的權(quán)重,同時(shí)列出詞的權(quán)重向量模型;所述權(quán)重用于衡量詞在文檔中的重要程度;
S33、計(jì)算相似度,通過(guò)計(jì)算兩個(gè)三元組權(quán)重向量模型之間的余弦值來(lái)描述每個(gè)分組中不同三元組的相似度;
S34、去重消歧義,對(duì)相似度高于設(shè)定值的三元組進(jìn)行刪除、去重和消歧,最終得到的三元組結(jié)果,完成了三元組的知識(shí)融合。
優(yōu)選的,所述步驟S1中對(duì)外部資源文件的獲取包括如下步驟:
S11、分析上市公司的數(shù)據(jù),獲取每個(gè)公司的行業(yè)和產(chǎn)品信息;
S12、分析每個(gè)公司的行業(yè)和產(chǎn)品信息,獲得上、中、下游的行業(yè)詞庫(kù)。
優(yōu)選的,所述步驟S31分組依據(jù)包括根據(jù)上游、中游和下游進(jìn)行分組,或根據(jù)企業(yè)進(jìn)行分組。
優(yōu)選的,步驟S32中構(gòu)建向量空間模型方法如下,將獲取到產(chǎn)業(yè)鏈的三元組抽象成一個(gè)向量,所述向量由n個(gè)Term組成,每個(gè)詞都有一個(gè)權(quán)重(Term Weight),
三元組(Knowledge)={term1,term2,……,termN};
三元組矢量(Knowledge Vector)={weight1,weight2,……,weightN};
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海融盈數(shù)據(jù)科技有限公司,未經(jīng)上海融盈數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110330349.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于產(chǎn)業(yè)鏈產(chǎn)品產(chǎn)量的電量預(yù)測(cè)方法
- 一種產(chǎn)業(yè)鏈生態(tài)大數(shù)據(jù)模型的建模方法及其應(yīng)用
- 帶圖形用戶界面的電腦(產(chǎn)業(yè)鏈平臺(tái))
- 一種產(chǎn)業(yè)鏈總覽圖生成系統(tǒng)及方法
- 一種產(chǎn)業(yè)鏈全景圖生成系統(tǒng)及方法
- 一種產(chǎn)業(yè)鏈的自主繪制管理方法及裝置
- 一種產(chǎn)業(yè)鏈圖譜構(gòu)建方法及相關(guān)設(shè)備
- 一種產(chǎn)業(yè)鏈可視化分析方法、裝置及設(shè)備
- 一種基于區(qū)塊鏈的產(chǎn)業(yè)鏈聯(lián)盟業(yè)務(wù)整合平臺(tái)系統(tǒng)
- 商顯產(chǎn)業(yè)鏈交易推薦方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識(shí)圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識(shí)圖譜的構(gòu)建方法、裝置、知識(shí)圖譜系統(tǒng)及設(shè)備
- 一種基于知識(shí)圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種用于創(chuàng)建知識(shí)圖譜的計(jì)算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法





