[發明專利]構建醫療訓練樣本的方法及裝置、醫療文本的檢索方法在審
| 申請號: | 202110041663.8 | 申請日: | 2021-01-13 |
| 公開(公告)號: | CN113571196A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 康戰輝 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G16H50/70 | 分類號: | G16H50/70;G06F16/332;G06F40/35;G06F40/289 |
| 代理公司: | 深圳市隆天聯鼎知識產權代理有限公司 44232 | 代理人: | 朱黎 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 構建 醫療 訓練 樣本 方法 裝置 文本 檢索 | ||
1.一種構建醫療訓練樣本的方法,其特征在于,包括:
獲取問答集合,所述問答集合包括針對目標醫療主題的若干問答語料,所述問答語料包括提問文本和回復文本;
根據所述回復文本的來源作者所屬醫療機構的機構權威等級特征和所述回復文本的來源作者對應的醫療職稱特征,計算所述回復文本的權威度分數;
根據所述回復文本的權威度分數在所述問答集合中進行問答語料篩選,并將篩選到的問答語料添加到候選問答集合中;
將所述候選問答集合中的回復文本進行組合,得到對應于所述目標醫療主題的目標科普文章;
將所述目標科普文章與目標問答語料進行關聯,得到醫療訓練樣本,所述目標問答語料是從所述候選問答集合中獲取的一問答語料;所述醫療訓練樣本用于對醫療問答模型進行訓練,其中,所述醫療問答模型用于從若干醫療科普文章中獲取針對所輸入醫療提問文本的醫療答案文本。
2.根據權利要求1所述的方法,其特征在于,所述根據所述回復文本的來源作者所屬醫療機構的機構權威等級特征和所述回復文本的來源作者對應的醫療職稱特征,計算所述回復文本的權威度分數,包括:
獲取所述回復文本的來源作者所屬醫療機構的機構權威等級特征,并獲取所述回復文本的來源作者對應的醫療職稱特征;
將所述機構權威等級特征所映射的數值與所述醫療職稱特征所映射的數值進行加權,得到所述回復文本對應的權威度分數。
3.根據權利要求2所述的方法,其特征在于,所述獲取所述回復文本的來源作者所屬醫療機構的機構權威等級特征,包括:
獲取所述回復文本對應的機構信息,所述機構信息指示了所述回復文本的來源作者所屬的目標醫療機構;
確定所述目標醫療機構在目標醫療機構排行榜中的排名;
根據所述目標醫療機構所在的目標醫療機構排行榜和所述目標醫療機構在所述目標醫療機構排行榜中的排名,確定所述目標醫療機構對應的機構權威等級特征。
4.根據權利要求3所述的方法,其特征在于,所述根據所述目標醫療機構所在的目標醫療機構排行榜和所述目標醫療機構在所述目標醫療機構排行榜中的排名,確定所述目標醫療機構對應的機構權威等級特征,包括:
獲取所述目標醫療機構排行榜對應的權重系數;
將所述目標醫療機構排行榜對應的權重系數與所述目標醫療機構在目標醫療機構排行榜中的排名相乘,得到目標數值;
將所得到的目標數值作為所述目標醫療機構對應的機構權威等級特征。
5.根據權利要求1所述的方法,其特征在于,所述將所述候選問答集合中的回復文本進行組合,得到對應于所述目標醫療主題的目標科普文章之前,所述方法還包括:
計算所述候選問答集合中任意兩個問答語料之間的語義相似度;
根據所述語義相似度對所述候選問答集合中的問答語料進行過濾,將過濾后所述候選問答集合中問答語料中的回復文本作為進行組合的對象。
6.根據權利要求5所述的方法,其特征在于,所述計算所述候選問答集合中任意兩個問答語料之間的語義相似度,包括:
對于所述候選問答集合中需要進行相似度計算的第一問答語料和第二問答語料,計算所述第一問答語料中的提問文本與所述第二問答語料中的提問文本之間的第一語義相似度,并計算所述第一問答語料中的回復文本與所述第二問答語料中的回復文本之間的第二語義相似度;
將所述第一語義相似度和所述第二語義相似度進行加權,得到所述第一問答語料與所述第二問答語料之間的語義相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110041663.8/1.html,轉載請聲明來源鉆瓜專利網。





