[發(fā)明專利]一種用于肝癌病理文本命名的實(shí)體識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110864136.7 | 申請(qǐng)日: | 2021-07-29 |
| 公開(公告)號(hào): | CN113627185A | 公開(公告)日: | 2021-11-09 |
| 發(fā)明(設(shè)計(jì))人: | 胡峰;何曉蓮;張清華;高滿;鄧緯斌 | 申請(qǐng)(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F16/35;G06N20/20;G16H50/70 |
| 代理公司: | 重慶輝騰律師事務(wù)所 50215 | 代理人: | 盧勝斌 |
| 地址: | 400065 重*** | 國(guó)省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 肝癌 病理 文本 命名 實(shí)體 識(shí)別 方法 | ||
1.一種用于肝癌病理文本命名的實(shí)體識(shí)別方法,其特征在于,包括:實(shí)時(shí)獲取肝癌病理文本信息,對(duì)該文本信息進(jìn)行預(yù)處理;將預(yù)處理后的文本信息輸入到訓(xùn)練好的肝癌病理文本命名實(shí)體模型,得到肝癌病理文本信息識(shí)別結(jié)果;根據(jù)識(shí)別結(jié)果對(duì)肝癌病理文本信息進(jìn)行分類標(biāo)記;肝癌病理文本命名實(shí)體模型包括:NER教師模型、十折模型以及命名實(shí)體抽取模型;
對(duì)肝癌病理文本命名實(shí)體模型進(jìn)行訓(xùn)練的過程包括:
S1:獲取肝癌病理文本數(shù)據(jù)集,將該數(shù)據(jù)集輸入到肝癌體系化標(biāo)注知識(shí)庫中,對(duì)肝癌病理文本數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行實(shí)體標(biāo)注;
S2:將肝癌病理文本數(shù)據(jù)集輸入到NER教師模型中,采用半監(jiān)督-自訓(xùn)練方式得到訓(xùn)練集的標(biāo)簽soft label;
S3:將進(jìn)行實(shí)體標(biāo)注的肝癌病理文本數(shù)據(jù)集輸入到十折模型進(jìn)行訓(xùn)練,得到增強(qiáng)去噪后的實(shí)體標(biāo)注肝癌病理文本數(shù)據(jù)集;將增強(qiáng)后的實(shí)體標(biāo)注肝癌病理文本數(shù)據(jù)集與訓(xùn)練集的標(biāo)簽soft label進(jìn)行合并,得到訓(xùn)練數(shù)據(jù)集;
S4:將訓(xùn)練集中的數(shù)據(jù)輸入到命名實(shí)體抽取模型中進(jìn)行訓(xùn)練,得到識(shí)別結(jié)果;
S5:根據(jù)識(shí)別結(jié)果計(jì)算模型的損失函數(shù),采用AdamW優(yōu)化器、基于余弦退火的學(xué)習(xí)率調(diào)整算法以及快照集成學(xué)習(xí)對(duì)模型的參數(shù)進(jìn)行調(diào)整,當(dāng)損失函數(shù)的值達(dá)到最小時(shí),完成模型的訓(xùn)練。
2.根據(jù)權(quán)利要求1所述的一種用于肝癌病理文本命名的實(shí)體識(shí)別方法,其特征在于,對(duì)肝癌病理文本數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行實(shí)體標(biāo)注的過程包括:將已知的標(biāo)注數(shù)據(jù)作為先驗(yàn)知識(shí)獲取具有權(quán)威性的原發(fā)性肝癌規(guī)范化病理診斷指南,根據(jù)原發(fā)性肝癌規(guī)范化病理診斷指南劃分出肝癌病理十大類實(shí)體,并整理出體系化十大類實(shí)體標(biāo)注導(dǎo)圖;每個(gè)導(dǎo)圖中包含每個(gè)實(shí)體的不同描述、情況以及參考文獻(xiàn);根據(jù)十大類實(shí)體標(biāo)注導(dǎo)圖對(duì)未標(biāo)注的肝癌病理文本編寫自動(dòng)化標(biāo)注腳本,得到實(shí)體標(biāo)注的數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的一種用于肝癌病理文本命名的實(shí)體識(shí)別方法,其特征在于,在對(duì)肝癌病理文本數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行實(shí)體標(biāo)注的過程中根據(jù)實(shí)體的描述和屬性去除冗余和無用的實(shí)體,保留實(shí)體重疊的部分,以確定實(shí)體的識(shí)別的完整性和正確性。
4.根據(jù)權(quán)利要求1所述的一種用于肝癌病理文本命名的實(shí)體識(shí)別方法,其特征在于,進(jìn)行實(shí)體標(biāo)注的類別包括:“腫瘤位置”、“腫瘤組織學(xué)類型”、“腫瘤分化程度”、“腫瘤數(shù)量”、“腫瘤大小”、“微血管癌栓”、“衛(wèi)星子灶”、“肝硬化程度”、“病理分期”、“包膜”;其中標(biāo)記的類別為數(shù)據(jù)的第i個(gè)字段的一個(gè)字段位置mi。
5.根據(jù)權(quán)利要求1所述的一種用于肝癌病理文本命名的實(shí)體識(shí)別方法,其特征在于,采用半監(jiān)督-自訓(xùn)練方式得到訓(xùn)練集的標(biāo)簽soft label的過程包括:將具有原始標(biāo)注數(shù)據(jù)的病理文本輸入到BERT_CRF模型中進(jìn)行訓(xùn)練驗(yàn)證,選取驗(yàn)證集上f1值最高的一個(gè)模型作為NER教師模型;采用NER教師模型對(duì)未標(biāo)注肝癌病理文本數(shù)據(jù)進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果為soft標(biāo)簽;將得到soft標(biāo)簽的數(shù)據(jù)作為增強(qiáng)數(shù)據(jù),將增強(qiáng)數(shù)據(jù)病理文本與原始標(biāo)注數(shù)據(jù)的病理文本進(jìn)行合并,得到訓(xùn)練集的標(biāo)簽soft label。
6.根據(jù)權(quán)利要求1所述的一種用于肝癌病理文本命名的實(shí)體識(shí)別方法,其特征在于,采用十折模型對(duì)實(shí)體標(biāo)注的肝癌病理文本數(shù)據(jù)集進(jìn)行去噪處理的過程包括:對(duì)已經(jīng)標(biāo)注的肝癌病理文本進(jìn)行檢查,判斷是否存在漏標(biāo)和誤標(biāo)情況;將漏標(biāo)和誤標(biāo)的肝癌病理文本進(jìn)行刪除,將刪除后的標(biāo)注肝癌病理文本輸入到十折交叉模型中,去除模型低置信度的結(jié)果,得到增強(qiáng)去噪后的實(shí)體標(biāo)注肝癌病理文本數(shù)據(jù)集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110864136.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 適用于肺癌的病理診斷報(bào)告快速生成系統(tǒng)及方法
- 適用于肝癌及消化道癌的病理診斷報(bào)告生成系統(tǒng)及方法
- 乳腺癌及女性生殖系統(tǒng)的病理診斷報(bào)告生成系統(tǒng)及方法
- 一種病理圖片加載方法和裝置
- 一種基于流程再造及云應(yīng)用的病理信息管理系統(tǒng)
- 病理切片管理方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 病理數(shù)據(jù)處理方法、裝置及電子設(shè)備
- 基于病理切片掃描和分析一體化方法、裝置、設(shè)備及介質(zhì)
- 病理圖像的處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種光聲病理影像的處理方法、存儲(chǔ)介質(zhì)及終端設(shè)備
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





