[發明專利]一種臨床術語標準化的數量預測方法及裝置在審
| 申請號: | 202110264867.8 | 申請日: | 2021-03-12 |
| 公開(公告)號: | CN112836055A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 李雪;劉升平;梁家恩 | 申請(專利權)人: | 云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G16H50/70 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 臨床 術語 標準化 數量 預測 方法 裝置 | ||
本發明涉及一種臨床術語標準化的數量預測方法,包括:獲取基本數據集;基本數據集包括多個臨床術語和每個臨床術語對應的標準術語集合;確定每個臨床術語對應的標準術語集合的分類標簽;對每個標準術語集合進行增強,確定增強數據集;根據分類標簽和增強數據集,通過預訓練語言模型BERT進行微調,確定臨床術語標準化的數量。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種臨床術語標準化的數量預測方法及裝置。
背景技術
描述診斷、手術、藥品、檢查、化驗、癥狀的臨床術語,表達方式靈活多變,為方便對病歷進行分析和歸檔,需將臨床術語標準化為對應的標準術語,現有技術通過分隔符,利用規則切分。術語標準化時,確定標準化后對應的標準術語的數量十分重要,以表1為例,表1為手術名稱標準化示例:
表1
從表1中可以看出,在手術名稱標準化示例中,沒有分隔符的臨床術語,不一定只對應一個標準術語;臨床術語分隔符多樣,且分隔符劃分的數量與實際標準術語的數量有差異。
現有技術存在問題為:規則切分無法處理無分隔符,但對應多個標準術語的情況。規則切分對多種分隔符的臨床術語兼容性差,且很難解決標準術語數量與分隔符數量不一致的情況。
發明內容
本發明的目的是針對現有技術的缺陷,提供一種臨床術語標準化的數量預測方法及裝置,以解決現有技術中所存在的問題。
為解決上述問題,第一方面,本發明提供了一種臨床術語標準化的數量預測方法,所述方法包括:
獲取基本數據集;所述基本數據集包括多個臨床術語和每個臨床術語對應的標準術語集合;
確定每個臨床術語對應的標準術語集合的分類標簽;
對每個標準術語集合進行增強,確定增強數據集;
根據所述分類標簽和所述增強數據集,通過預訓練語言模型BERT進行微調,確定臨床術語標準化的數量。
在一種可能的實現方式中,所述獲取基本數據集具體包括:
通過開源術語標準化競賽或者網絡爬取獲取基本數據集。
在一種可能的實現方式中,所述確定每個臨床術語對應的標準術語集合的分類標簽具體包括:
利用公式K=maxi∈(1,n)Card(Yi)確定分類標簽;其中,分類標簽為1到K的整數,K為每個臨床術語對應的標準術語集合中的標準術語數量的最大值,n為臨床術語的數量;基本數據集為D{X1,X2,...,Xn;Y1,Y2,...,Yn},Xi表示臨床術語,Yi為Xi對應的標準術語集合{yi1,yi2,...,yik}。
在一種可能的實現方式中,所述對每個標準術語集合進行增強,確定增強數據集具體包括:
對所述標準術語集合進行挖掘,確定所述標準術語集合中可合并的標準術語;對所述可合并的標準術語進行合并,確定合并后的標準術語為標準術語增強集;并且,
當臨床術語中存在分隔符時,將存在分隔符的所述臨床術語對應的標準術語集合進行擴充,將擴充后的標準術語集合確定為基本數據增強集;并且,
根據所述基本數據集、所述標準術語增強集和所述基本數據增強集,統計每個臨床術語中的分隔符,并確定存在分隔符的臨床術語的概率,根據確定的存在分隔符的臨床術語的概率,確定分隔符增強數據集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司,未經云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110264867.8/2.html,轉載請聲明來源鉆瓜專利網。





