[發明專利]基于數據包絡分析的文本分類模型解釋方法及系統有效
| 申請號: | 202110950317.1 | 申請日: | 2021-08-18 |
| 公開(公告)號: | CN113656548B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 廖祥文;林樹凱;林建洲;王燦杰;徐攀 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/216;G06F40/289 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 張燈燦;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 包絡 分析 文本 分類 模型 解釋 方法 系統 | ||
1.一種基于數據包絡分析的文本分類模型解釋方法,其特征在于,包括以下步驟:
通過文本預處理模塊對待解釋的初始文本進行預處理;
通過先驗知識提取模塊對待解釋文本的固有屬性進行信息提??;
通過多視角解釋模塊對文本的預測結果從不同視角進行解釋并獲取相應的貢獻得分;
通過數據包絡分析解釋模塊對先驗知識提取模塊提取的先驗知識矩陣與多視角解釋模塊提取的視角貢獻得分矩陣進行綜合評估分析,以獲取融合特征后的單詞解釋得分;
對提取的單詞特征向量進行綜合評估分析,以獲取融合特征后的單詞解釋得分,其具體方法為:
對于給定的待解釋文本s,每一個單詞si視作一個生產決策單元DMU;先驗知識提取模塊提取的信息無需經過分類模型,故將其視為DMU的投入,xi=(xi1,xi2,xi3,…)表示單詞si的投入向量,其中xij表示單詞si第j項先驗知識得分;多視角解釋模塊提取的信息經過分類模型,故將其視為DMU的產出,yi=(yi1,yi2,yi3,…)表示單詞si的產出向量,yij表示單詞si第j個視角的貢獻得分;
明確評估對象的投入產出后,基于DEA的CCR模型進行分析,評估第i0個DMU的規劃模型為:
式中,表示單詞的產出向量,表示單詞的投入向量,u為輸出向量參數,v為輸入向量參數;由于分式規劃難以求解,因此通過Chaenes-Cooper變換轉換為如下線性規劃:
其中Chaenes-Cooper變換取ω=tv,μ=tu;
通過上式構建給定文本單詞j0的線性規劃模型并求解得對應的有效性得分即最終的融合解釋得分。
2.根據權利要求1所述的基于數據包絡分析的文本分類模型解釋方法,其特征在于,對初始文本進行預處理的具體方法為:
通過正則表達式剔除原始數據中非文本、非英文和標點符號字符;
根據空格對剔除異常字符后的文本進行分詞處理;
根據英文停用詞表,剔除文本中涉及的無益于文本分析的停用詞,包括虛詞、無特定含義的動名詞;
基于模型訓練、測試文本構建詞典,通過詞典單詞對應編號構建輸入文本的詞向量,將得到的詞向量作為給定文本分類模型的輸入。
3.根據權利要求1所述的基于數據包絡分析的文本分類模型解釋方法,其特征在于,所述固有屬性包括解釋文本預測結果所需的先驗知識,提取所述固有屬性信息以得到符合常識的解釋結果;對于給定模型是文本情感分類模型的情況,引入情感得分、位置權重以及TF-IDF得分中的若干種或所有作為先驗知識。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110950317.1/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





