[發(fā)明專利]一種文本分類模型可解釋性方法的性能評價方法及裝置有效
| 申請?zhí)枺?/td> | 202010439318.5 | 申請日: | 2020-05-22 |
| 公開(公告)號: | CN111597423B | 公開(公告)日: | 2021-03-19 |
| 發(fā)明(設(shè)計)人: | 朱曉冬;沈椿壯;劉元寧;董立巖;郭書君 | 申請(專利權(quán))人: | 吉林大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9532;G06N3/04;G06N3/08 |
| 代理公司: | 長春市恒譽專利代理事務(wù)所(普通合伙) 22212 | 代理人: | 鞠傳龍 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 分類 模型 解釋性 方法 性能 評價 裝置 | ||
1.一種文本分類模型可解釋性方法的性能評價方法,其特征在于:其方法如下所述:
步驟一、采集分類標簽的描述性詞表:
描述性詞表是通過爬蟲方式,爬取百科網(wǎng)站上對文本分類模型分類的樣本標簽的定義性解釋文本并進行分詞;其中百科網(wǎng)站上以樣本標簽為關(guān)鍵字檢索所得頁面的第一自然段,通過去掉停用詞、計算tf-idf值的文本處理方式提取文本中關(guān)鍵詞,組成該標簽對應(yīng)的詞表;
步驟二、提取待評價的可解釋性方法所計算出的顯著性特征,提取出的詞,判斷有多少是在詞表中出現(xiàn)的,記這種詞的數(shù)量為wa;
顯著性特征提取方法為:通過softmax操作將可解釋性方法計算的顯著性得分歸一化,通過對比實驗、統(tǒng)計方法,選擇合適的閾值,將歸一化后的得分高于閾值的單詞作為可解釋性方法所提取的顯著性特征,顯著性特征:是指待分類文本中,可以對模型的決策起到正向作用的詞;
步驟三、對于每條樣本數(shù)據(jù),計算所屬類別的描述性詞表包含詞的數(shù)量,記包含詞的數(shù)量為wt;
步驟四、通過下述公式計算單個樣本覆蓋率:
即計算樣本中在詞表中出現(xiàn)的詞,有多少能被顯著性特征提取方法提取到;
步驟五、計算數(shù)據(jù)集中所有樣本覆蓋率的平均值,以評價顯著性特征提取方法的性能,可解釋性方法的性能評價指標由平均覆蓋率求得。
2.一種文本分類模型可解釋性方法性能評價裝置,其特征在于:包括有采集模塊、存儲模塊、識別模塊和計算模塊,其中采集模塊分別與存儲模塊和識別模塊相連接,識別模塊與計算模塊相連接;
采集模塊:用于采集文本分類模型所分類的樣本標簽的描述性詞表,描述性詞表,是通過爬蟲方式,爬取百科網(wǎng)站上對文本分類模型分類的樣本標簽的定義性解釋文本;通過分詞、去掉停用詞、計算tf-idf值的文本處理方式提取文本中關(guān)鍵詞,組成該標簽對應(yīng)的詞表;
存儲模塊:用于存儲采集過的樣本標簽及對應(yīng)的描述性詞表;
識別模塊:用于識別待分類樣本中,有哪些詞出現(xiàn)在描述性詞表中,有哪些詞被可解釋性方法判別為顯著性特征;
計算模塊:用于計算平均覆蓋率,所述覆蓋率由下述公式求得:
即計算樣本中在詞表中出現(xiàn)的詞,有多少能被顯著性特征提取方法提取到,其中,wa為權(quán)利要求1中“步驟二”的利用可解釋性方法對樣本進行顯著性特征提取且在詞表中出現(xiàn)的提取詞的數(shù)量,wt為權(quán)利要求1中“步驟三”的每條樣本數(shù)據(jù)所屬類別的描述性詞表包含詞的數(shù)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學,未經(jīng)吉林大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010439318.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





