[發明專利]醫學文本信息的確定方法、裝置、設備及存儲介質有效
| 申請號: | 202010035796.X | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111259664B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 楊培 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F18/22;G06F18/214;G16H10/60 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 醫學 文本 信息 確定 方法 裝置 設備 存儲 介質 | ||
1.一種醫學文本信息的確定方法,其特征在于,所述方法包括:
通過最大期望算法對第i詞串生成器進行優化,得到第i+1詞串生成器,所述第i詞串生成器對應第i詞表,其中,優化方式包括最大化所述第i詞串生成器下樣本語料對應的最大化對數似然函數值,所述樣本語料中包括醫療領域語料,i為大于等于1的整數;
對于所述第i詞表中的各個詞串,確定所述詞串對應的最大化對數似然函數損失,所述最大化對數似然函數損失根據移除所述詞串前所述樣本語料的最大化對數似然函數值,以及移除所述詞串后所述樣本語料的最大化對數似然函數值確定;
根據所述最大化對數似然函數損失的降序,獲取所述第i詞表中前k%的詞串;
根據所述前k%的詞串生成第i+1詞表,所述第i+1詞表為所述第i+1詞串生成器對應的詞表;
若所述第i+1詞表的詞串數量小于等于詞串數量閾值,則停止詞串生成器訓練;
獲取醫學內容描述以及至少兩個候選醫學文本信息,所述醫學內容描述包含疾病診斷的總結信息,所述候選醫學文本信息是疾病分類標準中的文本信息;
將所述醫學內容描述以及所述候選醫學文本信息輸入訓練得到的詞串生成器,得到所述醫學內容描述對應的第一詞串序列,以及各個所述候選醫學文本信息各自對應的第二詞串序列,所述詞串生成器用于基于詞表對文本進行切分生成詞串序列,所述第一詞串序列和所述第二詞串序列的個數為至少一個;
根據所述第一詞串序列和所述第二詞串序列生成詞串序列對,每個所述詞串序列對中包括一個所述第一詞串序列和一個所述第二詞串序列;
將所述詞串序列對輸入相似度評價模型,得到所述詞串序列對中所述第一詞串序列和所述第二詞串序列的相似度評分;
根據所述相似度評分確定所述醫學內容描述對應的目標醫學文本信息。
2.根據權利要求1所述的方法,其特征在于,所述詞串生成器基于語言模型訓練得到;
所述將所述醫學內容描述以及所述候選醫學文本信息輸入訓練得到的詞串生成器,得到所述醫學內容描述對應的第一詞串序列,以及各個所述候選醫學文本信息各自對應的第二詞串序列,包括:
將所述醫學內容描述輸入所述詞串生成器,得到所述第一詞串序列以及所述第一詞串序列對應的第一生成概率;
對于每個所述候選醫學文本信息,將所述候選醫學文本信息輸入所述詞串生成器,得到所述第二詞串序列以及所述第二詞串序列對應的第二生成概率;
所述根據所述第一詞串序列和所述第二詞串序列生成詞串序列對,包括:
根據所述第一生成概率選取所述第一詞串序列,并根據所述第二生成概率選取所述第二詞串序列;
根據選取的所述第一詞串序列和選取的所述第二詞串序列生成所述詞串序列對。
3.根據權利要求2所述的方法,其特征在于,所述根據所述第一生成概率選取所述第一詞串序列,并根據所述第二生成概率選取所述第二詞串序列,包括:
根據所述第一生成概率的降序,從所述第一詞串序列中選取前m個所述第一詞串序列,m為大于等于1的整數;
根據所述第二生成概率的降序,從所述第二詞串序列中選取前n個所述第二詞串序列,n為大于等于1的整數。
4.根據權利要求1至3任一所述的方法,其特征在于,所述獲取醫學內容描述以及至少兩個候選醫學文本信息之前,所述方法還包括:
獲取第一樣本文本對,所述第一樣本文本對中包含樣本醫學內容描述和正樣本醫學文本信息,所述正樣本醫學文本信息是所述樣本醫學內容描述對應正確醫學文本信息;
對所述第一樣本文本對進行負采樣,得到至少一個第二樣本文本對,所述第二樣本文本對中包括所述樣本醫學內容描述、所述正樣本醫學文本信息和負樣本醫學文本信息,所述負樣本醫學文本信息是所述樣本醫學內容描述對應錯誤醫學文本信息;
根據所述第二樣本文本對訓練所述相似度評價模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010035796.X/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





