[發明專利]用于細粒度醫療實體提取的系統和方法在審
| 申請號: | 201710097365.4 | 申請日: | 2017-02-22 |
| 公開(公告)號: | CN107644011A | 公開(公告)日: | 2018-01-30 |
| 發明(設計)人: | 費洪亮;譚樹龍;甄毅;鐘邇桁;劉朝春;周達文;范偉 | 申請(專利權)人: | 百度(美國)有限責任公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京志霖恒遠知識產權代理事務所(普通合伙)11435 | 代理人: | 陳姍姍,郭棟梁 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 細粒度 醫療 實體 提取 系統 方法 | ||
1.一種用于從輸入語句中提取醫療實體的計算機實現的方法,所述方法包括:
基于所述輸入語句中的一個或多個時間線索,將所述輸入語句分割成一個或多個時間片段;
對于來自所述一個或多個時間片段的時間片段:
使用基于規則的模型和包括與醫療有關的術語或短語的集合的醫療實體詞典來解析所述時間片段,以獲得第一解析醫療實體集合;
使用解析模型來解析所述時間片段,所述解析模型接收所述時間片段作為輸入并且在所述時間片段中輸出第二解析醫療實體集合;
基于所述第一解析醫療實體集合和所述第二解析醫療實體集合來輸出最終醫療實體集合。
2.根據權利要求1所述的計算機實現的方法,其中,所述最終醫療實體集合是所述第一解析醫療實體集合和所述第二解析醫療實體集合的組合。
3.根據權利要求2所述的計算機實現的方法,其中,所述第一解析醫療實體集合和所述第二解析醫療實體集合的所述組合是所述第一解析醫療實體集合和所述第二解析醫療實體集合的聯合減去所述第一解析醫療實體集合和所述第二解析醫療實體集合之間重復的任何實體。
4.根據權利要求1所述的計算機實現的方法,其中,所述基于規則的模型使用所述醫療實體詞典來進行關鍵字匹配以識別所述時間片段中的醫療實體。
5.根據權利要求4所述的計算機實現的方法,其中,所述醫療實體詞典是通過執行包括以下的步驟來獲得的充實的醫療實體詞典:
通過將來自初始醫療實體詞典的術語或短語的集合中的每個術語或短語與來自修飾符集合的每個修飾符組合,來生成候選合成醫療實體集合;
使用醫療數據來確定每個候選合成醫療實體的出現頻率;以及
將出現頻率超過門限值的每個候選合成醫療實體添加到所述醫療實體詞典。
6.根據權利要求5所述的計算機實現的方法,其中,所述解析模型是利用使用所述充實的醫療實體詞典和醫療論壇數據形成的訓練數據來訓練的。
7.根據權利要求1所述的計算機實現的方法,還包括:
對于所述最終解析醫療實體集合內的每個醫療實體,確定所述醫療實體是否被描述性修飾符所修飾;以及
響應于存在描述性修飾符,將所述描述性修飾符映射到一個或多個水平。
8.根據權利要求7所述的計算機實現的方法,還包括:生成針對每個時間片段的有向圖,其中,來自所述時間片段的所述最終解析醫療實體集合的每個解析醫療實體是表示所述醫療實體或維度的節點,每個邊緣表示由所述邊緣連接的節點之間的關系。
9.根據權利要求8所述的計算機實現的方法,其中,所述表示維度的節點被編碼來標識相關聯的解析醫療實體的定量描述的可測量水平。
10.一種用于創建從輸入語句中提取醫療實體的系統的方法,所述方法包括:
接收醫療實體詞典,所述醫療實體詞典包括與醫療有關的術語或短語的集合和醫療論壇數據;
使用所述醫療論壇數據中的至少一部分和所述醫療實體詞典中的至少一部分來形成訓練數據集合的樣本集合,對于每個樣本,所述醫療實體詞典包括來自所述醫療論壇數據的醫療語句和所述醫療語句中的相對應的醫療實體;
使用所述訓練數據集合中的至少一部分來訓練解析模型以識別輸入語句中的醫療實體;以及
使用所述醫療實體詞典中的術語和短語中的至少一部分來形成基于規則的模型以識別輸入語句中的醫療實體。
11.根據權利要求10所述的方法,其中,所述醫療實體詞典是使用修飾符集合從初始醫療實體詞典擴充的充實的醫療實體詞典,所述修飾符集合包括一個或多個形容詞、一個或多個副詞、或其組合。
12.根據權利要求11所述的方法,其中,所述充實的醫療實體詞典是通過執行包括以下的步驟來獲得的:
通過將來自初始醫療實體詞典的術語或短語的集合中的每個術語或短語與來自修飾符集合的每個修飾符組合,來生成候選合成醫療實體集合;
使用醫療數據來確定每個候選合成醫療實體的出現頻率;以及
將出現頻率超過門限值的每個候選合成醫療實體添加到所述醫療實體詞典。
13.根據權利要求10所述的方法,其中,樣本中的所述醫療實體是由與所述樣本相關聯的現有醫療實體標簽標識的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度(美國)有限責任公司,未經百度(美國)有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710097365.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種印刷點膠粘合工藝無縫內衣
- 下一篇:文胸及衣物





