[發(fā)明專利]一種多源同名專家消歧方法在審
| 申請?zhí)枺?/td> | 202011082199.9 | 申請日: | 2020-10-12 |
| 公開(公告)號: | CN112183100A | 公開(公告)日: | 2021-01-05 |
| 發(fā)明(設(shè)計)人: | 李林;李成中;譚祥;巴宗岳 | 申請(專利權(quán))人: | 浪潮天元通信信息系統(tǒng)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/36 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 陳婷婷 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 同名 專家 方法 | ||
本發(fā)明公開了一種多源同名專家消歧方法,屬于工程科技技術(shù)領(lǐng)域,該方法對來源于多個專家?guī)斓膶<覕?shù)據(jù)進(jìn)行清洗加工,進(jìn)行專家姓名唯一性分析;結(jié)合專家成果關(guān)聯(lián)及碰撞消歧處理,將包含專家實體定義的多源知識庫進(jìn)行整合,對大量存在的專家重名現(xiàn)象進(jìn)行實體消歧,以明確實體的正確指向,確定其語義,建立統(tǒng)一專家?guī)臁1景l(fā)明能夠有效解決各類文本中廣泛存在的同名專家歧義問題,為工程科技領(lǐng)域的語義搜索引擎、智能問答系統(tǒng)等提供精確的專家數(shù)據(jù)支撐。
技術(shù)領(lǐng)域
本發(fā)明涉及工程科技技術(shù)領(lǐng)域,具體地說是一種多源同名專家消歧方法。
背景技術(shù)
多源同名專家消歧,指的是消除多個專家?guī)斓耐麑<移缌x性,把相同姓名的專家按照現(xiàn)實世界的不同實體進(jìn)行區(qū)分。由于工程科技領(lǐng)域存在諸多不同機(jī)構(gòu)建設(shè)的專家?guī)欤鱾€專家?guī)熘g底層數(shù)據(jù)未做整合,存在大量專家重名現(xiàn)象。導(dǎo)致工程科技領(lǐng)域搜索引擎以及文獻(xiàn)數(shù)據(jù)庫中專家檢索效率低下,用戶需要花費(fèi)大量時間從重名專家中篩選出自己感興趣的專家信息。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是針對以上不足之處,提供一種多源同名專家消歧方法,能夠有效解決各類文本中廣泛存在的同名專家歧義問題,為工程科技領(lǐng)域的語義搜索引擎、智能問答系統(tǒng)等提供精確的專家數(shù)據(jù)支撐。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種多源同名專家消歧方法,對來源于多個專家?guī)斓膶<覕?shù)據(jù)進(jìn)行清洗加工,進(jìn)行專家姓名唯一性分析;
結(jié)合專家成果關(guān)聯(lián)及碰撞消歧處理,將包含專家實體定義的多源知識庫進(jìn)行整合,對大量存在的專家重名現(xiàn)象進(jìn)行實體消歧,以明確實體的正確指向,確定其語義,建立統(tǒng)一專家?guī)臁?/p>
該方法通過對專家?guī)鞌?shù)據(jù)進(jìn)行清洗和預(yù)處理,借助唯一性分析、專家成果關(guān)聯(lián)及碰撞消歧的技術(shù),對大量存在的專家重名現(xiàn)象進(jìn)行實體消歧,輸出專家消歧結(jié)果并建立知識庫,有效解決某技術(shù)領(lǐng)域內(nèi)各類文本中廣泛存在的同名專家歧義問題,適用于語義化搜索、問答系統(tǒng)、知識庫擴(kuò)充、異構(gòu)知識庫融合等領(lǐng)域的應(yīng)用。
優(yōu)選的,所述清洗加工包括專家數(shù)據(jù)屬性值確認(rèn),對于不符合常規(guī)邏輯和有明顯錯誤的專家屬性值進(jìn)行置空。
優(yōu)選的,對專家姓名唯一性分析過程如下:
若唯一,則將多源異名專家直接抽取入庫;
若不唯一,則根據(jù)專家成果關(guān)聯(lián)結(jié)果進(jìn)行判斷,碰撞消歧處理后入庫。
進(jìn)一步的,建立專家與期刊論文關(guān)系庫,實現(xiàn)專家與期刊論文成果的關(guān)聯(lián),進(jìn)而根據(jù)專家成果關(guān)聯(lián)結(jié)果進(jìn)行判斷專家姓名唯一性。
優(yōu)選的,所述碰撞消歧處理采用三角無向性碰撞消歧矩陣規(guī)則相交融合:
建立碰撞消歧規(guī)則引擎,并基于三角無向性碰撞消歧矩陣對碰撞消歧規(guī)則進(jìn)行相交融合。
進(jìn)一步的,根據(jù)專家姓名MD5值的首字母進(jìn)行專家分組,每組查詢出姓名相同的專家,基于碰撞消歧規(guī)則進(jìn)行數(shù)據(jù)判重,對重復(fù)數(shù)據(jù)進(jìn)行融合。
進(jìn)一步的,基于所述相交融合結(jié)果,根據(jù)專家數(shù)據(jù)屬性值進(jìn)行碰撞消歧處理,所述屬性值包括出生日期、手機(jī)號、文獻(xiàn)成果、簡介、研究領(lǐng)域和數(shù)據(jù)來源權(quán)威性。
優(yōu)選的,所述多個專家?guī)鞛楣こ炭萍碱I(lǐng)域的多個專家數(shù)據(jù)庫;將碰撞消歧處理后的多源同名專家進(jìn)行入庫,建立工程科技領(lǐng)域統(tǒng)一專家?guī)臁?/p>
本發(fā)明還要求保護(hù)一種多源同名專家消歧裝置,包括:至少一個存儲器和至少一個處理器;
所述至少一個存儲器,用于存儲機(jī)器可讀程序;
所述至少一個處理器,用于調(diào)用所述機(jī)器可讀程序,執(zhí)行上述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮天元通信信息系統(tǒng)有限公司,未經(jīng)浪潮天元通信信息系統(tǒng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011082199.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





