[發明專利]一種文本分類模型可解釋性方法的性能評價方法及裝置有效
| 申請號: | 202010439318.5 | 申請日: | 2020-05-22 |
| 公開(公告)號: | CN111597423B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 朱曉冬;沈椿壯;劉元寧;董立巖;郭書君 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9532;G06N3/04;G06N3/08 |
| 代理公司: | 長春市恒譽專利代理事務所(普通合伙) 22212 | 代理人: | 鞠傳龍 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 分類 模型 解釋性 方法 性能 評價 裝置 | ||
本發明公開了一種文本分類模型可解釋性方法的性能評價方法及裝置,其方法為:第一步、采集分類標簽的描述性詞表;第二步、通過可解釋性方法對模型決策所依賴的顯著性特征進行提取;第三步、計算可解釋性方法所提取顯著性特征的覆蓋率,用以評估方法性能,評價裝置包括有采集模塊、存儲模塊、識別模塊和計算模塊,其中采集模塊分別與存儲模塊和識別模塊相連接,識別模塊與計算模塊相連接,有益效果:為不同可解釋性方法的效果和性能提供了一種評價方法和標準。能夠有效的對比不同可解釋性方法的優劣提供量化指標,進而對可解釋性方法進行性能上的改進提供效果上的參考。
技術領域
本發明涉及一種性能評價方法及裝置,特別涉及一種文本分類模型可解釋性方法的性能評價方法及裝置。
背景技術
目前,隨著深度學習在人工智能領域的不斷應用,一些經典的自然語言處理問題已經被深度學習很好的解決,傳統的自然語言處理方法在一定程度上已經被深度學習技術取代。然而,深度學習模型,作為一種黑盒模型,采用端到端的訓練方法。使用者通常只需要設計好模型的結構,將有標簽數據輸入到模型中進行有監督的訓練,在測試階段將數據輸入模型,模型返回一個結果。在此過程中,人們往往無法理解深度學習模型的決策流程和依據。因此無法真正的信任模型。
文本分類問題一直是自然語言處理領域最基礎最常見的問題。隨著深度學習在文本分類問題中的應用,許許多多的研究人員和從業者都發覺到打破深度學習模型“黑盒子”,探究其做出選擇判斷的原因十分重要。尤其是在一些安全敏感的任務中,深度學習模型通常作為一種黑盒模型,采用端到端的訓練方法。在決策時,給模型輸入樣本,模型會返回一個決策結果。這種方式下,人們無法得知模型決策的依據,更無法驗證決策的可靠性,這就會給任務帶來嚴重的威脅。因此,深度學習模型的可解釋性及可解釋性方法成為了該領域的一大研究熱點。
雖然模型可解釋性問題一直出現在各大學術會議和討論中,但是可解釋性的研究是十分困難的。學術界目前缺乏對模型可解釋性的明確定義,因此也沒有特定的模型解釋方法。通常情況下,人們通過獲取模型對樣本標記的顯著性特征來理解模型的決策依據,基于此提出的方法也層出不窮。然而,目前缺少一種具有實際意義的性能評價方法,來判斷一個可解釋性方法的優劣,更無法對不同的可解釋性方法進行對比。這一問題對可解釋性方法的研究造成了巨大的困難。
發明內容
本發明的目的是為了解決目前缺少一種具有實際意義的性能評價方法,來判斷一個可解釋性方法的優劣,更無法對不同的可解釋性方法進行對比的問題而提供的一種文本分類模型可解釋性方法的性能評價方法及裝置。
本發明提供的文本分類模型可解釋性方法的性能評價方法,其方法如下所述:
步驟一、采集分類標簽的描述性詞表:
描述性詞表是通過爬蟲方式,爬取百科網站上對文本分類模型分類的樣本標簽的定義性解釋文本并進行分詞;其中百科網站上以樣本標簽為關鍵字檢索所得頁面的第一自然段,通過去掉停用詞、計算tf-idf值的文本處理方式提取文本中關鍵詞,組成該標簽對應的詞表;
步驟二、提取待評價的可解釋性方法所計算出的顯著性特征。提取出的詞,判斷有多少是在詞表中出現的,記這種詞的數量為wa;
顯著性特征提取方法為:通過softmax操作將可解釋性方法計算的顯著性得分歸一化,通過對比實驗、統計方法,選擇合適的閾值,將歸一化后的得分高于閾值的單詞作為可解釋性方法所提取的顯著性特征,顯著性特征:是指待分類文本中,可以對模型的決策起到正向作用的詞;
步驟三、對于每條樣本數據,計算所屬類別的描述性詞表包含詞的數量,記包含詞的數量為wt;
步驟四、通過下述公式計算單個樣本覆蓋率:
即計算樣本中在詞表中出現的詞,有多少能被顯著性特征提取方法提取到;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010439318.5/2.html,轉載請聲明來源鉆瓜專利網。





