[發明專利]醫療同義詞的確定方法和裝置在審
| 申請號: | 201710152584.8 | 申請日: | 2017-03-15 |
| 公開(公告)號: | CN106933806A | 公開(公告)日: | 2017-07-07 |
| 發明(設計)人: | 鄧侃;孫風磊;邱鵬飛;李丕勛 | 申請(專利權)人: | 北京大數醫達科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京品源專利代理有限公司11332 | 代理人: | 孟金喆,胡彬 |
| 地址: | 100193 北京市海淀區東北旺*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 醫療 同義詞 確定 方法 裝置 | ||
1.一種醫療同義詞的確定方法,其特征在于,包括:
獲取病歷樣本中至少一個自然語句,并對所述自然語句進行分詞;
在預先建立的醫學知識庫中,獲取與分詞后的詞語所對應的醫學標準化用語,作為所述詞語的候選同義詞;
根據同一病歷樣本中各詞語的關聯關系以及所述醫學知識庫中各所述醫學標準化術語之間的拓撲關系,從所述候選同義詞中確定出各所述詞語的目標同義詞。
2.根據權利要求1所述的方法,其特征在于,所述對所述自然語句進行分詞包括:
采用條件隨機場算法統計所述自然語句中字與字的連綴概率,并根據所述連綴概率對所述自然語句進行分詞。
3.根據權利要求1所述的方法,其特征在于,所述獲取與分詞后的詞語所對應的醫學標準化用語包括:
獲取分詞后的各詞語的目標詞向量,并計算各所述詞語的所述目標詞向量與預先建立的醫學知識庫中的醫學標準化用語的詞向量之間的余弦距離;
根據所述余弦距離確定與所述詞語所對應的醫學標準化用語。
4.根據權利要求3所述的方法,其特征在于,所述獲取分詞后的各詞語的目標詞向量包括:
采用語言模型獲取分詞后的詞語中每個字的字向量以及該詞語的詞向量;
將詞語中每個字的字向量以及該詞語的詞向量進行拼接,生成所述詞語的目標詞向量。
5.根據權利要求1-4任一所述的方法,其特征在于,在所述從所述候選同義詞中確定出目標同義詞之后,還包括:
記錄并存儲各所述詞語與各所述目標同義詞之間的對應關系,生成醫療同義詞詞庫。
6.一種醫療同義詞的確定裝置,其特征在于,包括:
病歷分詞模塊,用于獲取病歷樣本中至少一個自然語句,并對所述自然語句進行分詞;
候選同義詞獲取模塊,用于在預先建立的醫學知識庫中,獲取與分詞后的詞語所對應的醫學標準化用語,作為所述詞語的候選同義詞;
目標同義詞確定模塊,用于根據同一病歷樣本中各詞語的關聯關系以及所述醫學知識庫中各所述醫學標準化術語之間的拓撲關系,從所述候選同義詞中確定出各所述詞語的目標同義詞。
7.根據權利要求6所述的裝置,其特征在于,所述病歷分詞模塊用于:
采用條件隨機場算法統計所述自然語句中字與字的連綴概率,并根據所述連綴概率對所述自然語句進行分詞。
8.根據權利要求6所述的裝置,其特征在于,所述候選同義詞獲取模塊具體用于:
余弦距離計算單元,用于獲取分詞后的各詞語的目標詞向量,并計算各所述詞語的所述目標詞向量與預先建立的醫學知識庫中的醫學標準化用語的詞向量之間的余弦距離;
醫學標準化用語確定單元,用于根據所述余弦距離確定與所述詞語所對應的醫學標準化用語。
9.根據權利要求8所述的裝置,其特征在于,所述余弦距離計算單元具體用于:
采用語言模型獲取分詞后的詞語中每個字的字向量以及該詞語的詞向量;
將詞語中每個字的字向量以及該詞語的詞向量進行拼接,生成所述詞語的目標詞向量。
10.根據權利要求6-9任一所述的裝置,其特征在于,還包括:
醫療同義詞詞庫生成模塊,用于在從所述候選同義詞中確定出目標同義詞之后,記錄并存儲各所述詞語與各所述目標同義詞之間的對應關系,生成醫療同義詞詞庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大數醫達科技有限公司,未經北京大數醫達科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710152584.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大數據集中生物事件觸發詞的識別方法
- 下一篇:備忘錄事件提醒方法及系統





