[發明專利]基于文本特征的學術機構名稱實體對齊方法有效
| 申請號: | 202010867785.8 | 申請日: | 2020-08-26 |
| 公開(公告)號: | CN112016328B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 林欣;郭晨亮;李繼洲 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/33;G06F16/36 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 特征 學術 機構名稱 實體 對齊 方法 | ||
本發明公開了一種基于文本特征的學術機構名稱實體對齊方法,包括5個步驟:英文簡稱轉換到英文全稱;修正英文簡稱與英文全稱的錯誤對應;翻譯補全英文全稱和中文名稱;修正錯誤的中文名稱;基于文本特征進行學術機構合并。該方法使用從中英文文本數據中抽取得到的學術機構數據進行實體對齊,每條機構數據含英文簡稱、英文全稱、中文名稱、地理位置,有內容缺失及少量錯誤,通過補全缺失數據、修正錯誤數據、合并同一機構數據,最終獲得同一機構對應的多個不同名稱。本發明結合機構名稱文本特征與地理位置信息用于學術機構名稱實體對齊,不需要預先標注的機構名稱對應關系、名稱的上下文語義信息,以較低的復雜度獲得較好的實體對齊效果。
技術領域
本發明涉及的技術領域包括實體對齊、實體消歧、知識圖譜的構建、數據預處理技術并查集算法,尤其涉及對學術機構名稱進行實體對齊、構建學術知識圖譜的方法,涉及一種基于文本特征的學術機構名稱實體對齊方法。
背景技術
近年來,隨著計算機、網絡的發展和數據的積累,已經有越來越多的電子數據輔助計算機完成更多的任務。為了理解生活中常見的物品之間的關系,讓計算機可以學習到更多的知識,可以對生活中的實體構建知識圖譜,每種物品對應圖上的一個實體點,物品間的關系對應圖上連接實體的邊,這種方法在問答系統、信息檢索等領域廣泛應用。隨著大量的學術論文以電子版的形式發表和公開,學術研究的領域分類也越來越詳細和復雜。為了提供更加便捷和有效的文獻檢索功能,需要對論文對應的相關領域和作者、機構信息構建學術知識圖譜,使用更加深入的關聯關系來優化查詢結果。
在構建知識圖譜的過程中,由于實體信息從文本中抽取,而同一種實體有多種不同的表述方式,需要對同一實體的不同表達方式進行合并來減少錯誤的出現;對于不同來源的數據,需要對構建的知識圖譜進行合并,尋找不同名稱的對應實體。機構是學術知識圖譜的重要組成部分,對學術機構名稱進行消歧也是構建學術知識圖譜的一個步驟。
常見的實體對齊方法可以結合實體所在的上下文中的語義信息進行判斷,也可以根據知識圖譜中與其它實體的關系進行判斷,需要實體的上下文信息和已知實體對齊關系的標注數據。但在學術知識圖譜中機構名稱沒有充足的上下文信息,機構本身涉及領域很廣,與上下文信息關聯較弱;機構名稱經常以縮寫形式出現而不是常見詞;沒有充足的已知機構名稱對齊的標注數據,需要標注數據的方法在這種情況下效果較差;機構相關的作者等實體信息同樣需要對齊。目前還沒有較好的方法解決這些問題。
在學術機構名稱實體對齊中,存在數據源有中英文不同語言、機構名稱沒有統一格式、機構經常以英文簡稱形式出現、文本抽取的英文簡稱全稱對應可能出錯、有些機構從詳細地址中截取導致錯誤等問題。機構名稱數據形式為(英文簡稱、英文全稱、中文名、地理位置),其中的某些項可能缺失或存在錯誤的對應關系。本發明綜合利用機構名稱的文本特征和地理位置信息較好地解決了這些問題。
發明內容
鑒于現有技術的缺點和存在的困難與挑戰,本發明的目的是針對學術機構名稱的特點提供了一種基于文本特征的學術機構名稱實體對齊方法,利用學術機構名稱的文本特征,利用簡稱與全稱、中文與英文、地理位置與機構的關聯關系,解決了目前現有技術方案不能對沒有上下文的學術機構實體進行對齊、算法實現復雜度較高、沒有充足標記數據用來訓練模型的問題,僅使用少量已知的簡稱詞與全稱詞對應關系、地名數據對學術機構實體進行對齊任務,而不需要相關的論文和作者信息,并得到較好的效果。
實現本發明目的的具體技術方案是:
一種基于文本特征的學術機構名稱實體對齊方法,特點是:以從中英文文本數據中抽取得到的多條學術機構數據為基礎,對學術機構名稱進行實體對齊。每條學術機構數據格式為(英文簡稱,英文全稱,中文名稱,地理位置),有少量缺失項和錯誤對應關系。該方法補全數據中的缺失項、修正錯誤內容、合并表示同一機構的數據,最終獲得同一機構的多個不同中英文名稱與唯一地理位置,找到每個機構對應的一組數據。該方法包括以下具體步驟:
步驟1:英文簡稱轉換到英文全稱
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010867785.8/2.html,轉載請聲明來源鉆瓜專利網。





