[發(fā)明專利]一種融合Wikidata的實(shí)體對(duì)齊方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110073043.2 | 申請(qǐng)日: | 2021-01-20 |
| 公開(公告)號(hào): | CN112650821A | 公開(公告)日: | 2021-04-13 |
| 發(fā)明(設(shè)計(jì))人: | 陳其賓;李銳;王建華 | 申請(qǐng)(專利權(quán))人: | 濟(jì)南浪潮高新科技投資發(fā)展有限公司 |
| 主分類號(hào): | G06F16/28 | 分類號(hào): | G06F16/28;G06F16/33;G06F16/36;G06F16/38;G06F40/279;G06F40/44 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 陳婷婷 |
| 地址: | 250100 山東省濟(jì)南市*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 wikidata 實(shí)體 對(duì)齊 方法 | ||
本發(fā)明公開了一種融合Wikidata的實(shí)體對(duì)齊方法,屬于自然語(yǔ)言處理技術(shù)領(lǐng)域,該方法通過數(shù)據(jù)預(yù)處理,根據(jù)Wikidata中標(biāo)簽信息及具體業(yè)務(wù)數(shù)據(jù)進(jìn)行分組,具體到每個(gè)分組,對(duì)業(yè)務(wù)數(shù)據(jù)中的每個(gè)實(shí)體和Wikidata中每個(gè)實(shí)體構(gòu)建匹配對(duì),通過計(jì)算相似度選擇匹配實(shí)體對(duì)。本發(fā)明可以支撐數(shù)據(jù)融合及檢索需求,實(shí)現(xiàn)Wikidata數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)的真正融合,提高檢索效率。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,具體地說是一種融合Wikidata的實(shí)體對(duì)齊方法。
背景技術(shù)
在醫(yī)療、教育等知識(shí)密集型的業(yè)務(wù)領(lǐng)域,往往需要構(gòu)建基于互聯(lián)網(wǎng)內(nèi)容的搜索查詢系統(tǒng),其中一個(gè)解決方法是通過將業(yè)務(wù)結(jié)構(gòu)化數(shù)據(jù)和Wikidata等百科類數(shù)據(jù)融合,為結(jié)構(gòu)化數(shù)據(jù)和Wikidata數(shù)據(jù)建立關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)對(duì)Wikidata數(shù)據(jù)的覆蓋,支撐后續(xù)檢索及分析等需求。但目前使用的方法并不能很好的實(shí)現(xiàn)Wikidata數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)的真正融合,限制了應(yīng)用時(shí)的檢索效率。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是針對(duì)以上不足之處,提供一種融合Wikidata的實(shí)體對(duì)齊方法,可以支撐數(shù)據(jù)融合及檢索需求,實(shí)現(xiàn)Wikidata數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)的真正融合,提高檢索效率。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種融合Wikidata的實(shí)體對(duì)齊方法,通過數(shù)據(jù)預(yù)處理,根據(jù)Wikidata
中標(biāo)簽信息及具體業(yè)務(wù)數(shù)據(jù)進(jìn)行分組,具體到每個(gè)分組,對(duì)業(yè)務(wù)數(shù)據(jù)中的每個(gè)實(shí)體和Wikidata中每個(gè)實(shí)體構(gòu)建匹配對(duì),通過計(jì)算相似度選擇匹配實(shí)體對(duì)。
進(jìn)一步的,針對(duì)未匹配到結(jié)果的業(yè)務(wù)實(shí)體,去CN-Dbpedia匹配實(shí)體,并利用Wikidata和CN-Dbpedia間映射關(guān)系將業(yè)務(wù)實(shí)體匹配到Wikidata中對(duì)應(yīng)實(shí)體。
CN-DBpedia是由復(fù)旦大學(xué)知識(shí)工場(chǎng)實(shí)驗(yàn)室研發(fā)并維護(hù)的大規(guī)模通用領(lǐng)域結(jié)構(gòu)化百科。CN-DBpedia主要從中文百科類網(wǎng)站(如百度百科、互動(dòng)百科、中文維基百科等)的純文本頁(yè)面中提取信息,經(jīng)過濾、融合、推斷等操作后,最終形成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),供機(jī)器和人使用。
進(jìn)一步的,在業(yè)務(wù)數(shù)據(jù)模型的基礎(chǔ)上,構(gòu)建融合Wikidata數(shù)據(jù)的數(shù)據(jù)模型增加數(shù)值類型屬性以及數(shù)據(jù)標(biāo)簽。
優(yōu)選的,所述增加數(shù)值類型屬性,取值范圍包括時(shí)間、復(fù)合屬性、原始屬性、地理坐標(biāo)、實(shí)體以及數(shù)量,針對(duì)每種取值類型構(gòu)建相應(yīng)的數(shù)據(jù)模型。
優(yōu)選的,所述數(shù)據(jù)標(biāo)簽包括媒體文件、文檔、站外鏈接、頁(yè)面文件、頁(yè)面模板應(yīng)用、頁(yè)面模板文件以及內(nèi)容管理等,以存放不同種類的Wikidata數(shù)據(jù)。
優(yōu)選的,所述預(yù)處理,基于業(yè)務(wù)數(shù)據(jù)質(zhì)量問題進(jìn)行數(shù)據(jù)處理,包括數(shù)據(jù)規(guī)范化、同義詞處理、特殊字符以及停用詞處理。
通過數(shù)據(jù)規(guī)范化統(tǒng)一數(shù)據(jù)格式,通過同義詞詞林構(gòu)建同義詞,并對(duì)重復(fù)值、特殊字符、空格等進(jìn)行處理。
進(jìn)一步的,所述分組采用最小化組內(nèi)數(shù)量的策略,只匹配組內(nèi)的實(shí)體,以提高匹配效率。
優(yōu)選的,通過詞別級(jí)的TF-IDF進(jìn)行提取特征,并計(jì)算預(yù)先相似度,選擇匹配實(shí)體對(duì)。
TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。TF是詞頻(Term Frequency),IDF是逆文本頻率指數(shù)(InverseDocument Frequency)。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于濟(jì)南浪潮高新科技投資發(fā)展有限公司,未經(jīng)濟(jì)南浪潮高新科技投資發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110073043.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)





