[發明專利]用于醫療文本分類的決策樹構建方法及裝置在審
| 申請號: | 202111296348.6 | 申請日: | 2021-11-03 |
| 公開(公告)號: | CN114020915A | 公開(公告)日: | 2022-02-08 |
| 發明(設計)人: | 張萌;周玉 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31 |
| 代理公司: | 北京庚致知識產權代理事務所(特殊普通合伙) 11807 | 代理人: | 韓德凱 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 醫療 文本 分類 決策樹 構建 方法 裝置 | ||
本公開提供一種用于醫療文本分類的決策樹構建方法,包括:構建訓練集;構建屬性集;如果訓練集的各個樣本都屬于相同類別,則將節點標記為一個類別的葉節點,決策樹構建完成,結束;如果屬性集為空或無法對訓練集進一步劃分,則將當前訓練集所在的節點標記為葉節點;以及遍歷屬性集中的每一個屬性,選擇最優劃分屬性,將訓練集劃分為若干子集,如果子集為空,則將包含訓練集的分支節點標記為葉節點,類別記為訓練集中樣本最多的類,構建結束,否則繼續遍歷。本公開還提供了一種用于醫療文本分類的決策樹構建裝置、電子設備以及可讀存儲介質。
技術領域
本公開涉及一種用于醫療文本分類的決策樹構建方法、裝置、電子設備及可讀存儲介質,屬于文本分類技術領域。
背景技術
文本分類的相關技術已經取得了很大進展,但是在醫療領域中,文本分類任務與普通場景下的文本分類任務有一定區別,一是表現為醫療領域專業性較強,含有大量的醫學專業名稱,二是表現為醫療文本類別不均衡的問題,是困擾醫療文本分類準確性的關鍵,類別不均衡導致模型在學習過程中嚴重傾向于多數類,無法學習到少數類別的特征。在構建用于醫療文本分類的決策樹中,如何解決醫療文本類別不均衡可能導致的特征缺失問題,將會影響決策樹對于醫療文本分類的效果。
發明內容
為了解決上述技術問題中的至少一個,本公開提供了一種用于醫療文本分類的決策樹構建方法、裝置、電子設備及可讀存儲介質。
根據本公開的一個方面,提供一種用于醫療文本分類的決策樹構建方法,包括:
構建訓練集D={(x1,y1),(x2,y2),……,(xm,ym)},其中,xi表示訓練集中的各個樣本,yi表示訓練集中的樣本對應的類別;
構建屬性集A={a1,a2,a3……,ad},其中,ad表示屬性;
如果訓練集D的各個樣本xi都屬于相同類別,則將節點標記為一個類別的葉節點,決策樹構建完成,結束;
如果屬性集A為空或無法對訓練集D進一步劃分,則將當前訓練集所在的節點標記為葉節點;以及,
遍歷屬性集中的每一個屬性,選擇最優劃分屬性,將訓練集D劃分為若干子集Dv,如果Dv為空,則將包含訓練集D的分支節點標記為葉節點,類別記為訓練集D中樣本最多的類,構建結束,否則繼續遍歷。
根據本公開至少一個實施方式的用于醫療文本分類的決策樹構建方法,所述屬性集A的構成包括:對訓練文本進行分詞,統計各個詞的詞頻,將每個詞作為屬性集A的組成。
根據本公開至少一個實施方式的用于醫療文本分類的決策樹構建方法,所述屬性集A通過基尼指數劃分的方法獲取。
根據本公開至少一個實施方式的用于醫療文本分類的決策樹構建方法,通過基尼指數劃分的方法,包括:
對于屬性集A中的每一個屬性a,逐一計算各個屬性的基尼指數;以及,
選取基尼指數值最小的屬性作為最終劃分集合屬性。
根據本公開的又一個方面,提供一種用于醫療文本分類的決策樹構建裝置,包括:
訓練集構建模塊,用于構建訓練集,訓練集D={(x1,y1),(x2,y2),……,(xm,ym)},其中,xi表示訓練集中的各個樣本,yi表示訓練集中的樣本對應的類別;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111296348.6/2.html,轉載請聲明來源鉆瓜專利網。





