[發明專利]融合實體關鍵字特征的醫療領域實體分類方法在審
| 申請號: | 202011482958.0 | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112507717A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 呂學強;游新冬;董志安 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G16H15/00;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 實體 關鍵字 特征 醫療 領域 分類 方法 | ||
1.一種融合實體關鍵字特征的醫療領域實體分類方法,其特征在于,包括:
文本向量化操作;
特征提取;
序列標注。
2.根據權利要求1所述的方法,其特征在于,所述文本向量化操作包括:經過BERT預訓練語言模型將標注數據以及關鍵字特征轉化為字向量。
3.根據權利要求2所述的方法,其特征在于,在所述文本向量化操作之前,所述方法還包括:采用TF-IDF輔助構建關鍵字。
4.根據權利要求3所述的方法,其特征在于,所述采用TF-IDF輔助構建關鍵字,包括:
構建停用詞表;
計算詞頻;
計算逆文檔頻率;
計算TF-IDF值;
將得到的TF-IDF值按降序排列,提取出關鍵詞;
從關鍵詞中篩選出關鍵字。
5.根據權利要求1所述的方法,其特征在于,所述特征提取包括:將所述字向量輸入BILSTM中進行處理,再將處理結果經過CNN層進一步處理,得到提取的特征,。
6.根據權利要求1所述的方法,其特征在于,所述序列標注包括:將CNN層輸出的結果輸入到CRF層進行標注,得到標注序列。
7.根據權利要求1所述的方法,其特征在于,所述文本向量化操作,包括:
通過BERT預訓練模型對輸入的醫療領域實驗數據進行嵌入操作,將輸入的字符轉化為向量;
句子嵌入;
定義位置信息進行位置嵌入,標記該字符在輸入數據中所處的位置;
將嵌入生成的結果組合起來,得到BERT模型生成的向量。
8.根據權利要求1所述的方法,其特征在于,所述序列標注,包括:通過CRF模型使用動態規劃算法、維特比算法得到最優標記序列,根據最優標記序列進行標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011482958.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文字識別矯正的方法
- 下一篇:一種基于自然語言信息輔助的目標追蹤方法





