[發明專利]一種數據處理方法及相關設備在審
| 申請號: | 201910540408.0 | 申請日: | 2019-06-20 |
| 公開(公告)號: | CN110263184A | 公開(公告)日: | 2019-09-20 |
| 發明(設計)人: | 孫海霞;錢慶;鄧盼盼;李姣;沈柳 | 申請(專利權)人: | 中國醫學科學院醫學信息研究所 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100020*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞表 術語系統 分配標識 目標匹配 數據處理 版本更新 版本升級 時間成本 數據包括 預設規則 自動更新 時間差 新版本 更新 匹配 節約 申請 升級 | ||
本申請實施例提供了一種數據處理方法及相關設備,可以實現集成術語系統中新版本來源詞表中變化概念的自動更新,提高了集成術語系統版本更新效率,大大節約了時間成本,縮短集成術語系統概念升級與來源詞表版本升級之間的時間差。該方法包括:將待更新的來源詞表進行注冊,以得到目標來源詞表;確定所述目標來源詞表中的目標詞表數據,所述目標詞表數據包括已分配標識的術語以及已分配標識的概念;將所述目標詞表數據與第一來源詞表的第一詞表數據進行匹配,以確定所述目標來源詞表相對于所述第一來源詞表的目標匹配結果;根據所述目標匹配結果以及預設規則對所述集成術語系統中的詞表數據進行更新。
技術領域
本申請涉及數據處理領域,特別涉及一種數據處理方法及相關設備。
背景技術
同義詞表、分類表、編碼系統、敘詞表、本體、知識圖譜等術語系統在信息資源描述、組織、管理、發現等方面的強大功能已經得到圖書情報界、自然語言處理、醫學信息學等相關領域的廣泛認可。在過去的幾十年中,由于各領域各類術語系統的編制與發展主要面向某一具體任務和應用環境需要,因而在概念表達、概念粒度、概念屬性和概念間語義關系等內容設置、數據結構、存儲格式等方面也各不相同,嚴重限制了使用不同術語系統的計算機應用程序之間的通信,進而限制了不同信息資源系統之間的互操作和共享利用。在不同術語系統之間進行互操作,方便使用不同術語系統的計算機應用程序之間進行無障礙理解和對話,已成為打破該限制核心技術。集成術語系統構建是實現不同術語系統互操作的一種,通過將某一特定主題領域的若干術語系統注冊匯編在一起,以術語為基本單元,以概念為核心,以來源詞表的原有關系為依托,通過對不同來源詞表中表征同一概念的術語歸并連接在一起,形成新的同義詞組或準同義詞組,并推薦出新的來源術語作為概念的優選形式;基于歸并后形成的概念實現不同來源詞表語義關聯。這樣的集成術語系統也稱為多來源詞網絡系統,已構成各類信息資源互通互信的信息基礎設施。
現在術語系統更新技術研究主要圍繞在單一術語系統進行,涉及術語、概念、屬性和關系更新,相關技術有未登錄詞識別、術語刪除、同義詞擴充等。關于集成術語系統的更新,主要集中在:1)新來源詞表擴充,將一個新的詞表通過格式轉換、詞匯相似度計算等方式添加到既有集成術語系統中;2)問題修正,通過關系不一致檢查發現集成術語系統中隱藏問題并進行校正。現有來源詞表的更新還主要依賴人工方式進行,且主要集中在術語和概念層面,對來源詞表進行術語、概念增刪改操作。但是,依賴人工更新方式,考慮來源詞表數量和規模大小,時間和經濟成本較高,無法滿足效率和效益需要。
發明內容
本申請實施例提供了一種數據處理方法及相關設備,可以實現集成術語系統中新版本來源詞表中變化概念的自動更新,提高了集成術語系統版本更新效率,大大節約了時間成本,縮短集成術語系統概念升級與來源詞表版本升級之間的時間差。
本申請實施例第一方面提供了一種數據處理方法,應用于集成術語系統,所述集成術語系統包括至少一個來源詞表,其特征在于,包括:
將待更新的來源詞表進行注冊,以得到目標來源詞表;
確定所述目標來源詞表中的目標詞表數據,所述目標詞表數據包括已分配標識的術語以及已分配標識的概念;
將所述目標詞表數據與第一來源詞表的第一詞表數據進行匹配,以確定所述目標來源詞表相對于所述第一來源詞表的目標匹配結果,所述第一來源詞表為所述集成術語系統中與所述目標來源詞表對應的來源詞表;
根據所述目標匹配結果以及預設規則對所述集成術語系統中的詞表數據進行更新。
可選地,所述將所述目標詞表數據與第一來源詞表的第一詞表數據進行匹配,以確定所述目標來源詞表相對于所述第一來源詞表的目標匹配結果,包括:
將目標術語與所述第一詞表數據中的術語進行字符串匹配,以得到術語匹配結果,所述術語匹配結果包括:新增術語結果、未變化術語結果和/或刪除術語結果,所述目標術語為所述目標詞表數據中的任意一個術語;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國醫學科學院醫學信息研究所,未經中國醫學科學院醫學信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910540408.0/2.html,轉載請聲明來源鉆瓜專利網。





