[發明專利]一種醫療命名實體一詞多標的識別方法、裝置及電子設備在審
| 申請號: | 202110617009.7 | 申請日: | 2021-06-02 |
| 公開(公告)號: | CN113191151A | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 張瀚之;劉升平;梁家恩 | 申請(專利權)人: | 云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/126;G06F40/117;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100096 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 醫療 命名 實體 一詞多 標的 識別 方法 裝置 電子設備 | ||
本公開涉及一種醫療命名實體一詞多標的識別方法、裝置及電子設備,涉及深度學習技術領域,包括:對待識別文本進行細粒度分詞;對所述細粒度分詞進行信息融合,得到編碼詞向量;根據所述編碼詞向量輸出所述待識別文本對應的識別信息。本發明可以使中文細粒度詞擁有融合上下文信息的作用,能夠解決醫療領域命名實體的一詞多標問題。
技術領域
本公開實施例涉及深度學習技術領域,更具體地,涉及一種醫療命名實體一詞多標的識別方法、裝置及電子設備。
背景技術
序列標記問題作為NLP的基本問題,其標簽預測的結果對于后續任務有著至關重要的影響。此外,自然語言處理中的許多任務也均能轉化為序列標記問題,如命名實體識別、分詞、詞性標注等。
但是在醫療領域的命名實體的識別過程中常會遇到一詞多標的問題,如葡萄糖這個詞,在“患者低血糖注射葡萄糖溶液治療”中是和“溶液”一起標為藥品,在“患者查血:葡萄糖5.73mmol/L”中則單獨標為檢查指標,“患者運動后自飲葡萄糖水”中則不標,詞的語義并沒有明顯變化但在不同的語境下對應的標簽是不同的。
雖然現有解決序列標記問題的LSTM模型可以一定程度上的處理一字多義,但是LSTM模型是以字級別進行編碼,在編碼過程中的最小編碼單元為一個字,是對字級別進行詞向量編碼,而對于醫療領域常見的詞級別的一詞多標無法很好地解決。
發明內容
本公開實施例的一個目的是提供一種醫療命名實體一詞多標的識別方法、裝置及電子設備,以解決現有命名實體的識別模型對于詞級別的一詞多標效果較差的問題。
根據本公開的第一方面,提供了一種醫療命名實體一詞多標的識別方法,包括:對待識別文本進行細粒度分詞;對所述細粒度分詞進行信息融合,得到編碼詞向量;根據所述編碼詞向量輸出所述待識別文本對應的識別信息。
進一步地,所述對待識別文本進行細粒度分詞,包括:利用二元語法模型以及命名實體詞庫對所述待識別文本進行細粒度分詞,將所述待識別文本拆分為多個單元詞組;其中,每一單元詞組最少包含一個字。
進一步地,所述命名實體詞庫包括醫療專業知識庫。
進一步地,對所述細粒度分詞進行信息融合,得到編碼詞向量,包括:利用字符級語言模型將每一所述細粒度分詞映射到向量空間,得到對應于每個細粒度分詞的編碼詞向量。
進一步地,將所述細粒度分詞映射到向量空間即對該分詞進行信息融合,包括:對每個單元詞組的尾字前向隱藏狀態和首字后向隱藏狀態進行拼接,以融合每個細粒度分詞在語境中的信息和每個細粒度分詞本身的信息。
進一步地,根據所述編碼詞向量輸出所述待識別文本對應的識別信息,包括:利用序列標記模型對所述編碼詞向量進行標記,輸出對每個編碼詞向量的標簽預測。
根據本公開的第二方面,還提供了一種醫療命名實體一詞多標的識別裝置,包括:分詞模塊,用于對待識別文本進行細粒度分詞;編碼詞向量模塊,用于對所述細粒度分詞進行信息融合,得到編碼詞向量;識別模塊,用于根據所述編碼詞向量輸出所述待識別文本對應的識別信息。
根據本公開的第三方面,還提供了一種電子設備,包括存儲器和處理器,所述存儲器用于存儲計算機程序;所述處理器用于執行所述計算機程序,以實現根據本公開第一方面所述的方法。
根據本公開的第四方面,還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲計算機程序,所述計算機程序在被處理器執行時實現根據本公開的第一方面所述的方法。
本公開實施例的一個有益效果在于,本發明實施例使用二元語法模型融合醫療專業知識庫,對文本先進行細粒度分詞,再對細粒度分詞進行信息融合,得到編碼詞向量,使中文的細粒度詞擁有了融合上下文信息和詞組本身內部信息的作用,能夠解決醫療領域的一詞多標問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司,未經云知聲智能科技股份有限公司;廈門云知芯智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110617009.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:模具氣路和模具
- 下一篇:超聲波鍍錫裝置及鍍錫方法





