[發(fā)明專利]醫(yī)學(xué)文本結(jié)構(gòu)化方法、裝置、計算機設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010935255.2 | 申請日: | 2020-09-08 |
| 公開(公告)號: | CN112016274A | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計)人: | 朱威;何義龍 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151;G06F40/30;G06F40/166 |
| 代理公司: | 深圳眾鼎專利商標代理事務(wù)所(普通合伙) 44325 | 代理人: | 姚章國 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 醫(yī)學(xué) 文本 結(jié)構(gòu) 方法 裝置 計算機 設(shè)備 存儲 介質(zhì) | ||
1.一種醫(yī)學(xué)文本結(jié)構(gòu)化方法,其特征在于,包括:
抓取待處理醫(yī)學(xué)源文本中整段的非結(jié)構(gòu)化醫(yī)學(xué)知識文本;
識別所述非結(jié)構(gòu)化醫(yī)學(xué)知識文本中所有的標點符號,按照所述標點符號將所述非結(jié)構(gòu)文本拆分成多個第一特征語句;
將所述第一特征語句輸入至預(yù)設(shè)語言識別模型后,獲取與每一個所述第一特征語句對應(yīng)的一個語義特征向量;
將所有的所述語義特征向量輸入至預(yù)設(shè)文章語義識別模型后,獲取所述預(yù)設(shè)文章語義識別模型輸出的第二特征語句;所述第二特征語句中包含所述預(yù)設(shè)文章語義識別模型根據(jù)所述非結(jié)構(gòu)化醫(yī)學(xué)知識文本的上下文關(guān)聯(lián)關(guān)系確定的預(yù)設(shè)數(shù)量的待分割位置;
調(diào)用出所述待處理醫(yī)學(xué)源文本的第一代碼文件,從所述第一代碼文件中查詢所述第二特征語句,并在第一代碼文件中與所述第二特征語句的待分割位置對應(yīng)的位置插入分割符號之后,得到第二代碼文件;
運行所述第二代碼文件,以在所述待處理醫(yī)學(xué)源文本上展示與所述非結(jié)構(gòu)化醫(yī)學(xué)知識文本對應(yīng)的結(jié)構(gòu)化醫(yī)學(xué)知識文本。
2.根據(jù)權(quán)利要求1所述的醫(yī)學(xué)文本結(jié)構(gòu)化方法,其特征在于,所述抓取待處理醫(yī)學(xué)源文本中整段的非結(jié)構(gòu)化醫(yī)學(xué)知識文本之后,還包括:
通過預(yù)設(shè)自然語言處理模型對所述非結(jié)構(gòu)化醫(yī)學(xué)知識文本進行檢測,對所述非結(jié)構(gòu)化中存在錯誤的詞語進行標記并獲取標記結(jié)果;
調(diào)用出所述待處理醫(yī)學(xué)源文本的第一代碼文件,根據(jù)所述標記結(jié)果對所述第一代碼文件中存在錯誤的詞語進行修正處理,得到第三代碼文件,并對所述第三代碼文件進行運行后,得到修正完成后的非結(jié)構(gòu)化醫(yī)學(xué)知識文本。
3.根據(jù)權(quán)利要求1所述的醫(yī)學(xué)文本結(jié)構(gòu)化方法,其特征在于,所述預(yù)設(shè)語言識別模型為bert模型;
所述將所述第一特征語句輸入至預(yù)設(shè)語言識別模型后,獲取與每一個所述第一特征語句對應(yīng)的一個語義特征向量,包括:
將所述第一特征語句輸入至所述bert模型后,通過所述bert模型查詢所述第一特征語句中各個字的字向量;
通過所述bert模型中的Attention機制選取所述第一特征語句中一個所述字向量作為Query向量,并將所述第一特征語句其他所述字向量作為Key向量;
對所述Query向量與各個所述Key向量進行相似度計算后得到權(quán)重系數(shù),并通過所述權(quán)重系數(shù)對所述Query向量和所述Key向量對應(yīng)的Value值進行加權(quán)運算,得到所述Attention機制輸出與所述Query向量對應(yīng)的第一增強語義特征向量;
通過所述bert模型中的多個推疊Transformer Encoder對所述第一增強語義特征向量進行線性轉(zhuǎn)換,得到第二增強語義特征向量;
將與所述第一特征語句中每個字的字向量所對應(yīng)的第二增強語義特征向量進行組合后,得到與所述第一特征語句對應(yīng)的所述語義特征向量。
4.根據(jù)權(quán)利要求1所述的醫(yī)學(xué)文本結(jié)構(gòu)化方法,其特征在于,所述在第一代碼文件中與所述第二特征語句的待分割位置對應(yīng)的位置插入分割符號,得到第二代碼文件之后,還包括:
根據(jù)預(yù)設(shè)樣式格式調(diào)用出對應(yīng)的層疊樣式表,并將所述層疊樣式表嵌套至所述第二代碼文件中。
5.根據(jù)權(quán)利要求1所述的醫(yī)學(xué)文本結(jié)構(gòu)化方法,其特征在于,所述預(yù)設(shè)文章語義識別模型為LSTM模型;
所述將所有的所述語義特征向量輸入至預(yù)設(shè)文章語義識別模型之后,包括:
通過所述LSTM模型中的遺忘門限選擇丟棄信息;
通過所述LSTM模型中的輸入門限和所述丟棄信息從所述語義特征向量中選擇所需信息;
通過所述LSTM模型中的輸出門限和所述所需信息輸出所述第二特征語句。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010935255.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 將醫(yī)學(xué)設(shè)備自動整合到醫(yī)學(xué)設(shè)施網(wǎng)絡(luò)的方法和設(shè)備
- 醫(yī)學(xué)詢問細化系統(tǒng)、方法、裝置及包括醫(yī)學(xué)詢問系統(tǒng)的工作站
- 將醫(yī)學(xué)設(shè)備自動整合到醫(yī)學(xué)設(shè)施網(wǎng)絡(luò)的方法和設(shè)備
- 基于人工智能的醫(yī)學(xué)影像分類處理系統(tǒng)及方法
- 一種醫(yī)學(xué)圖像系統(tǒng)
- 醫(yī)學(xué)知識圖譜構(gòu)建方法及裝置、存儲介質(zhì)和電子設(shè)備
- 一種實現(xiàn)醫(yī)學(xué)編碼映射的方法、裝置及設(shè)備
- 醫(yī)學(xué)影像的分類方法、醫(yī)學(xué)影像的檢索方法和裝置
- 一種醫(yī)學(xué)圖像處理方法、醫(yī)學(xué)圖像識別方法及裝置
- 醫(yī)學(xué)圖像標記方法、裝置、設(shè)備及存儲介質(zhì)
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





