[發明專利]一種對醫學文本數據結構化處理的控制方法及裝置在審
| 申請號: | 201711205811.5 | 申請日: | 2017-11-27 |
| 公開(公告)號: | CN110019711A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 羅震;吳謹準;賈虎;徐盛;顧春宏 | 申請(專利權)人: | 吳謹準 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/335;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 361003 福建省廈門市思*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 醫學 文本數據結構 抽取 標簽序列 結構模型 文本數據 映射 結構化文本 結構化裝置 抽取裝置 控制裝置 模型訓練 人工標注 擴展性 詞庫 嵌入 匹配 維護 | ||
本發明提供一種對醫學文本數據結構化處理的控制方法,包括如下步驟:a.基于結構模型對醫學文本數據進行實體抽取得到多個醫學實體映射,所述結構模型包括多個標簽序列,所述標簽序列在人工標注的基礎上通過模型訓練的方式形成,所述醫學文本數據包括多個詞嵌入;b.對多個所述醫學實體映射進行組合得到所述結構化文本。本發明提供一種對醫學文本數據結構化處理的控制裝置,包括實體抽取裝置和結構化裝置。本發明采用實體抽取的方式避免了對匹配詞庫的依賴,抽取效果、泛化能力和擴展性得到了提高,降低了維護成本。
技術領域
本發明屬于信息處理技術領域,特別涉及一種使用人工智能技術對醫療文本進行處理的方法,特別是一種對醫學文本數據結構化處理的控制方法及裝置。
背景技術
人工智能(英語:Artificial Intelligence,Al)指由人制造出來的機器所表現出來的智能。通常人工智能是指通過普通電腦實現的智能。人工智能包括弱人工智能和強人工智能。一般認為,弱人工智能(也稱狹義人工智能)指的是專注于解決某個特定領域問題的人工智能技術,也可以認為是應用于該領域的技術工具。
自然語言處理技術是狹義人工智能的一個重要分支,注重于對自然語言的處理和運用,在人機交互中已經得到了廣泛的應用。自然語言處理的范疇包括信息檢索、信息抽取、機器翻譯、文本朗讀、分詞、詞性標注、自動摘要等領域。
在健康醫療大數據領域的實際應用中,使用自然語言處理技術中的分詞、標注,可以對于醫生使用自然語言描述的病歷進行分析,從中提取病人的癥狀、診療信息和事件等信息。這些信息的獲得和標準化對于醫生的臨床科研研究以及人工智能輔助診療系統等應用的搭建都起到重要的作用。
目前并不存在專門針對醫療大數據領域進行自然語言處理的控制方法,即,目前對醫療文本的分析仍然采用傳統的分詞、標注方法進行處理,傳統的分詞方法為:建立字典;根據相鄰詞出現的頻率建立得分模型;對于不認識的新詞輔助其他方法解決。這樣帶來的缺陷:一是處理過程較長,響應速度不夠快;二是遇到新詞時,匹配成功率低。對于醫療文本而言,其特點是語言結構相對簡單,包含大量專業詞匯,而且長詞很多,因此如果利用現有的分詞、標注方法對醫療文本進行識別,會進一步減慢響應速度,原因在于,現有的分詞方法(即利用建立字典的方式)更多是針對傳統的語言結構,對于專業術語則并非其強項,這樣在識別醫療文本時,會導致頻繁的出現的新詞,與之而來的就是匹配成功率進一步降低。
發明內容
針對現有技術存在的技術缺陷,根據本發明的一個方面,一種對醫學文本數據結構化處理的控制方法,用于將對應于自然語言的醫學文本數據進行結構化處理獲得結構化文本,包括如下步驟:
a.基于結構模型對醫學文本數據進行實體抽取得到多個醫學實體映射,所述結構模型包括多個標簽序列,所述標簽序列在人工標注的基礎上通過模型訓練的方式形成,所述醫學文本數據包括多個詞嵌入;
b.對多個所述醫學實體映射進行組合得到所述結構化文本。
優選地,所述步驟a包括如下步驟:
a1.將所述醫學文本數據轉換為詞嵌入二維矩陣后輸入雙向長短時記憶網絡;
a2.所述雙向長短時記憶網絡輸出長度為所述醫學文本數據對應的序列長度以及寬度為指定長度的醫學文本數據二維矩陣;
a3.所述醫學文本數據二維矩陣被傳入條件隨機域獲得得分最大的標簽序列所對應的詞嵌入作為所述醫學實體映射,所述得分由條件隨機域根據所述醫學文本數據的全局信息基于所述結構模型確定,一個所述標簽序列對應一個所述得分。
優選地,所述步驟a之前還執行如下步驟:
i.將標準字序列轉換為詞嵌入二維矩陣后輸入雙向長短時記憶網絡;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吳謹準,未經吳謹準許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711205811.5/2.html,轉載請聲明來源鉆瓜專利網。





