[發明專利]實體名稱歸一化系統及其方法、計算機可讀介質有效
| 申請號: | 202011640532.3 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112613318B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 李抒昊;亓杰星;傅洛伊;王新兵 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/232;G06N3/04;G06N3/08;G06F16/31 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 胡晶 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 名稱 歸一化 系統 及其 方法 計算機 可讀 介質 | ||
1.一種實體名稱歸一化方法,其特征在于,包括如下步驟:
步驟S1:準備待歸一化的名字記錄以及相對應的標注名稱記錄用于訓練;
步驟S101:利用上游數據采集系統對待歸一化的名稱記錄進行搜集;
步驟S102:針對搜集到的待歸一化的名稱記錄用文本處理規則進行預處理;
步驟S103:針對預處理完成的待歸一化的名稱記錄進行標注并記錄;
步驟S2:利用自然語言處理深度學習模型對標注名稱記錄組成的語料庫進行字符級別的語言模型預訓練;
步驟S3:將標注名稱記錄按照設定的規則劃分為訓練集和測試集;
步驟S4:利用訓練集對預訓練完成的自然語言處理深度學習模型進行微調訓練;
步驟S5:利用測試集驗證預訓練完成的自然語言處理深度學習模型的準確度及時間性能;
步驟S6:將利用訓練集、測試集進行微調訓練、驗證完成的自然語言處理深度學習模型與標準名稱集合部署成為歸一化系統,對待歸一化的實體名稱進行歸一化處理;
步驟S601:將實體標準名稱整理并輸入到進行微調訓練、驗證完成的自然語言處理深度學習模型中得到對應的特征向量,并保存到數據庫;
步驟S602:搭建實體名稱歸一化系統,接受用戶輸入待歸一化名稱,將該名稱輸入步驟S601的自然語言處理深度學習模型中得到對應的特征向量,并在步驟S601的數據庫中,找到歐幾里得距離與之最近的一個特征向量,返回其對應實體作為結果;
步驟S603:實體名稱歸一化系統部署上線,測試其穩定性;
所述步驟S4包括:
步驟S401:利用訓練集對預訓練完成的自然語言處理深度學習模型準備進行參數微調訓練;
步驟S402:設定損失函數,損失函數輸入兩個由自然語言處理深度學習模型生成的名稱特征向量以及兩個所屬實體名稱,當使得損失函數下降且兩個名稱所屬實體相同時,兩個特征向量的歐幾里得距離降低;當使得損失函數下降且兩個名稱所屬實體不同時,兩個特征向量的歐幾里得距離增加;
步驟S403:對損失函數進行函數優化之后,對預訓練完成的自然語言處理深度學習模型進行參數微調訓練;
步驟S404:當微調訓練的自然語言處理深度學習模型收斂時,訓練結束,將微調訓練完成的自然語言處理深度學習模型的結構參數進行保存;
所述步驟S5包括:
步驟S501:利用測試集對步驟S404保存的自然語言處理深度學習模型進行準確度測試;
步驟S502:利用測試集對步驟S404保存的自然語言處理深度學習模型進行時間復雜度測試;
步驟S503:修改自然語言處理深度學習模型的超參數,重復步驟S4,直到步驟S501與步驟S502所得到的準確度和時間復雜度達到最佳。
2.根據權利要求1所述的實體名稱歸一化方法,其特征在于,所述步驟S2包括:
步驟S201:選擇一種深度學習模型中的自然語言處理深度學習模型;
步驟S202:針對選定的自然語言處理深度學習模型選擇相匹配的預訓練方法;
步驟S203:利用步驟S201中的自然語言處理深度學習模型配合步驟S202中的預訓練方法進行預訓練。
3.根據權利要求1所述的實體名稱歸一化方法,其特征在于,在步驟S2中的步驟S203進行語言模型的預訓練的對象是步驟S102中預處理完成的待歸一化的名稱。
4.根據權利要求1所述的實體名稱歸一化方法,其特征在于,所述步驟S3包括:
步驟S301:統計所有的標記數據中的每一實體名稱的名稱變體數目;
步驟S302:對于每一實體名稱,根據實體名稱的變體數目,將其中一部分名稱作為測試集,其余部分作為訓練集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011640532.3/1.html,轉載請聲明來源鉆瓜專利網。





