[發明專利]一種醫學術語標準化框架的構建方法、裝置、電子設備在審
| 申請號: | 202111574525.2 | 申請日: | 2021-12-21 |
| 公開(公告)號: | CN114238639A | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 羅立剛;張旸;馬睿;劉輝 | 申請(專利權)人: | 零氪醫療智能科技(廣州)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F16/33;G06F16/31;G06N20/00 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 蔣姍 |
| 地址: | 511400 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 醫學 術語 標準化 框架 構建 方法 裝置 電子設備 | ||
本申請實施例提供一種醫學術語標準化框架的構建方法、裝置、電子設備及存儲介質,其中,該方法包括:獲取醫學術語原始數據;對醫學術語原始數據進行分類,得到短術語類數據和長術語類數據;建立與短術語類數據對應的同義詞庫;建立與短術語類數據對應的變體規則庫;根據長術語類數據建立召回模型和排序模型;根據同義詞庫、變體規則庫、召回模型和排序模型構建醫學術語標準化框架。實施本申請實施例,可以將醫學術語轉換為標準化的醫學術語,通過迭代閉環使得醫學術語的轉換準確率得到提升。
技術領域
本申請涉及醫學術語信息處理技術領域,具體而言,涉及一種醫學術語標準化框架的構建方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
傳統醫學術語標準化通常采用基于詞表映射的方法,預先建立標準術語對應的同義詞庫,在標準化階段通過查詢同義詞標得到標準詞;或者使用模型方法進行標準化,即采用典型的召回+排序的方法進行標準化,在推斷階段先從標準化詞庫中根據相似度量得到候選,然后再對候選詞進行排序得到最佳候選詞,作為標準詞。
然而這兩種方法都存在一定弊端,基于詞表映射的方法前期需要大量同義詞的搜集,標準化效果完全由同義詞的覆蓋度決定,對于一些名稱較長的術語,由于書寫表現的多樣性,很難通過前期的同義詞搜集完成窮舉,表現效果不佳,轉化的準確率低下,基于召回+排序的方法前期需要大量的數據標注,且在某些復雜場景下效果并不能得到很好的保障。
發明內容
本申請實施例的目的在于提供一種醫學術語標準化框架的構建方法、裝置、電子設備及計算機可讀存儲介質,可以將醫學術語轉換為標準化的醫學術語,使得醫學術語的轉換準確率得到提升。
第一方面,本申請實施例提供了一種醫學術語標準化框架的構建方法,所述方法包括:
獲取醫學術語原始數據;
對所述醫學術語原始數據進行分類,得到短術語類數據和長術語類數據;
建立與所述短術語類數據對應的同義詞庫;
建立與所述短術語類數據對應的變體規則庫;
根據所述長術語類數據建立召回模型和排序模型;
根據所述同義詞庫、所述變體規則庫、所述召回模型和所述排序模型構建醫學術語標準化框架。
在上述實現過程中,通過對不同的醫學術語類型建立不同的標準化規則,使得不同類型的醫學術語可以通過適合的方法得到標準化的修正,保證了每一類醫學術語都可以生成對應的標準化醫學術語,使得醫學術語的識別的準確率得到較高提升。
進一步地,所述建立與所述短術語類數據對應的同義詞庫的步驟,包括:
獲取所述短術語類數據中的短術語;
提取所述短術語對應的同義詞詞頻信息,根據所述同義詞詞頻信息建立所述同義詞庫。
在上述實現過程中,通過短術語對應的同義詞詞頻信息來建立同義詞庫,使得每個短術語都可以在同義詞庫中找到對應的標準化短術語,方便修正短術語,且提高準確率。
進一步地,所述根據所述同義詞詞頻信息建立所述同義詞庫的步驟,包括:
根據所述同義詞詞頻信息對短術語進行詞表映射,得到所述同義詞庫。
在上述實現過程中,同義詞詞頻信息可以反映短術語詞的特征,將同義詞詞頻信息作為置信依據可以提高短術語詞轉化為標準化的短術語詞的準確率。
進一步地,所述建立與所述短術語類數據對應的變體規則庫的步驟,包括:
獲取變體規則;
根據所述變體規則對所述短術語進行變體糾錯,得到變體規則庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于零氪醫療智能科技(廣州)有限公司,未經零氪醫療智能科技(廣州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111574525.2/2.html,轉載請聲明來源鉆瓜專利網。





