[發明專利]預訓練模型獲取、疾病實體標注方法、裝置及存儲介質在審
| 申請號: | 202010936637.7 | 申請日: | 2020-09-08 |
| 公開(公告)號: | CN112016319A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 朱威;何義龍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/169;G06N20/00 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 姚章國 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 模型 獲取 疾病 實體 標注 方法 裝置 存儲 介質 | ||
1.一種基于詞匯表的預訓練模型獲取方法,其特征在于,包括:
獲取第一中文語料,并對所述第一中文語料進行分詞處理,得到初步分詞結果;
對所述初步分詞結果的非常用詞進行詞切分,以獲取目標分詞結果;
根據所述目標分詞結果創建預訓練模型的中文詞匯表;
利用所述中文詞匯表對所述預訓練模型進行預訓練,以獲取目標預訓練模型。
2.如權利要求1所述的預訓練模型獲取方法,其特征在于,所述對所述第一中文語料進行分詞處理,得到初步分詞結果,包括:
獲取預設前綴詞典;
基于所述預設前綴詞典對所述第一中文語料的各個句子進行掃描,以獲取所述各個句子中每個漢字的所有可能詞切分方式;
根據所述各個句子中每個漢字的所有可能詞切分方式構建目標有向無環圖;
對所述目標有向無環圖查找最大詞頻概率路徑,并將所述最大詞頻概率路徑對應的詞切分組合作為所述初步分詞結果。
3.如權利要求1所述的預訓練模型獲取方法,其特征在于,所述對所述初步分詞結果的非常用詞進行詞切分,以獲取目標分詞結果,包括:
獲取預設BPE詞匯表,所述預設BPE詞匯表為根據BPE算法所獲取的分詞詞匯表;
將所述初步分詞結果的分詞與所述預設BPE詞匯表的分詞進行匹配,以確定出所述初步分詞結果中不存在于所述預設BPE詞匯表的分詞;
將所述初步分詞結果中不存在于所述預設BPE詞匯表的分詞進行再拆分,以獲取所述目標分詞結果。
4.如權利要求3所述的預訓練模型獲取方法,其特征在于,所述預設BPE詞匯表通過如下方式獲?。?/p>
a、獲取第二中文語料;
b、對所述第二中文語料的每個文字和標點符號進行拆分,以獲取多個拆分單元;
c、將相鄰的所述拆分單元作為相鄰單元對,并統計所有所述相鄰單元對的頻數;
d、選擇所述頻數最高的所述相鄰單元對合并成新的拆分單元;
e、重復所述c-d步驟直至滿足預設條件;
f、根據滿足所述預設條件的剩余所述拆分單元構建所述預設BPE詞匯表。
5.如權利要求4所述的預訓練模型獲取方法,其特征在于,所述預設件包括所述剩余拆分單元的數量滿足預設數量。
6.如權利要求1-5任一項所述的預訓練模型獲取方法,其特征在于,所述利用所述中文詞匯表對所述預訓練模型進行預訓練,以獲取目標預訓練模型,包括:
依次獲取所述中文詞匯表中分詞對應的分詞標記向量;
獲取所述中文詞匯表中分詞對應的分詞位置向量;
對所述中文詞匯表中的部分分詞進行掩碼處理,以獲取分詞掩碼向量;
將所述中文詞匯表中所述分詞標記向量、分詞位置向量和分詞掩碼向量進行拼接,以獲取模型輸入訓練向量;
按照目標預測任務將所述獲取模型輸入訓練向量輸入所述預訓練模型進行預訓練,以獲取所述目標預訓練模型,其中,所述目標預測任務包括對被掩碼的所述分詞的漢字數量進行預測。
7.一種基于預訓練模型的疾病實體標注方法,其特征在于,包括:
獲取經過人工標注疾病實體的實體標注文本訓練數據;
利用所述實體標注文本訓練數據對目標預訓練模型進行微調,以獲取疾病實體標注模型,所述目標預訓練模型為經過如權利要求1-6任一項所述預訓練模型獲取方法所獲取的預訓練模型;
在需對待識別醫用文本進行疾病實體標注時,將所述待識別醫用文本輸入至所述疾病實體標注模型中,以獲取所述疾病實體標注模型輸出的疾病實體標注結果。
8.一種基于詞匯表的預訓練模型獲取裝置,其特征在于,包括:
第一分詞模塊,用于獲取第一中文語料,并對所述第一中文語料進行分詞處理,得到初步分詞結果;
第二分詞模塊,用于對所述初步分詞結果的非常用詞進行詞切分,以獲取目標分詞結果;
創建模塊,用于根據所述目標分詞結果創建預訓練模型的中文訓練詞匯表;
預訓練模塊,用于利用所述中文詞匯表對所述預訓練模型進行預訓練,以獲取目標預訓練模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010936637.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種觀賞用智能沙盤
- 下一篇:諾麗果均一多糖提取分離方法和應用





