[發明專利]實體名稱歸一化系統及其方法、計算機可讀介質有效
| 申請號: | 202011640532.3 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112613318B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 李抒昊;亓杰星;傅洛伊;王新兵 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/232;G06N3/04;G06N3/08;G06F16/31 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 名稱 歸一化 系統 及其 方法 計算機 可讀 介質 | ||
本發明提供了一種實體名稱歸一化方法,其特征在于,包括:準備待歸一化的名字記錄以及相對應的標注名稱記錄用于訓練;利用自然語言處理深度學習模型對標注名稱記錄組成的語料庫進行字符級別的語言模型預訓練;將標注名稱記錄按照設定的規則劃分為訓練集和測試集;利用訓練集對預訓練完成的自然語言處理深度學習模型進行微調訓練;利用測試集驗證預訓練完成的自然語言處理深度學習模型的準確度及時間性能;將利用訓練集、測試集進行微調訓練、驗證完成的自然語言處理深度學習模型對待歸一化的實體名稱進行歸一化處理。本發明通過預訓練字符級別語言模型來提取任意名稱的特征向量,從而通過訓練不同名稱之間的距離度量來完成名稱歸一化任務。
技術領域
本發明涉及實體鏈接技術領域,具體地,涉及一種實體名稱歸一化系統及其方法、計算機可讀介質,尤其涉及一種基于預訓練語言模型和距離度量的實體名稱歸一化系統及其方法、計算機可讀介質。
背景技術
實體名稱歸一化一直是實體鏈接系統中長期存在且難以解決的一類問題。實體名稱歸一化一般指,對于同一實體存在的不同實體名稱,將其準確映射到所對應實體的過程。實體名稱歸一化依照領域又可分為學術機構名稱歸一化、公司名稱歸一化、商品名稱歸一化等。下面以學術機構名稱歸一化為例子作進一步闡述。
學術機構名稱歸一化在學術大數據分析中存在重大的工程意義。近年來學術論文及專利的數目有著巨大的提升,而每一篇學術論文和專利申請中都會附帶申請人的所屬機構名稱。然而多數情況下的機構名稱因為翻譯、拼寫方式、慣用縮寫、使用地址等等原因而產生不用的變體。例如同樣指代上海交通大學,英文中可以使用“Shanghai Jiao TongUniversity”,也可以使用縮寫“SJTU”,或是“Shanghai Jiao Tong Univ.”等。有時會在名稱前后加入院系、地址等信息。不同變體的存在極大干擾了統計工作,對學術大數據分析造成了巨大的障礙。由此,學術機構名稱歸一化任務成為一個迫切需要解決的任務。
以往解決實體名稱歸一化問題通常采用以下三種方法。第一種是基于字典,即根據以往數據人工地維護一個從實體到名稱變體的字典,當需要進行實體名稱的歸一化時,在字典中查找是否存在已有的記錄,若存在則返回結果;若不存在,則人工判斷后將其加入字典中。該方法需要大量人工判斷,耗時耗力。第二種是基于搜索引擎及機器學習的方法,由于相同實體的名稱變體間存在一定的聯系,例如有部分詞語重疊等等,利用這個特性可以維護一個搜索引擎,當用戶輸入需要歸一化的名稱時,首先在搜索引擎中以一定的規則查找已有的名稱變體,返回與之相近的若干個候選項;然后使用機器學習的方式在這若干個候選項中選擇出最適合的一項作為結果返回。這種方法有兩個主要瓶頸,一是依賴搜索引擎的規則,需要人工設計一定的規則來保證正確的實體會被包含在候選項中;二是在機器學習對候選項進行選擇的階段,需要人工設計大量的特征(features)用作訓練。第三種方案是將歸一化問題作為分類問題解決,若總實體個數為N,就設計一個N分類器,分類器可以使用機器學習的方案例如SVM,樸素貝葉斯分類器等,也可以使用深度學習的神經網絡來實現。這種方案的局限是當實體數目過大的時候,需要分類的類別數目也很多,導致分類器難以訓練。
經過檢索,專利文獻CN111859942A公開了一種醫學名稱歸一化方法、裝置、存儲介質及終端,包括:對醫學標準詞表中的每個標準詞條進行第一階段的拆解,得到每個標準詞條所對應的多個醫學屬性;為每個標準詞條構建相應的屬性表達式;對所述每個標準詞條進行第二階段拆解,得到每個醫學屬性下的多個子屬性;獲取待歸一的醫學名稱所對應的多個醫學屬性及每個醫學屬性下的多個子屬性;將所述待歸一的醫學名稱的多個子屬性與標準詞條的多個子屬性進行表達式匹配計算;輸出符合匹配要求的所述待歸一的醫學名稱所對應的標準詞條。該現有技術的不足之處在于其基于對名稱進行屬性拆解、特征提取的方法,由于相同實體的名稱變體間存在一定的聯系,從而進行待歸一的醫學名稱進行匹配,但是在設計屬性拆解和特征提取規則時,需要人工參與規則設計,耗時耗力且依賴專業人員對特定領域的經驗,并不是最優技術方案。
因此,亟需開發一種能夠解決上述技術難題的實體名稱歸一化的方法。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011640532.3/2.html,轉載請聲明來源鉆瓜專利網。





