[發(fā)明專利]基于不確定推理的文本層次分類方法與裝置有效
| 申請?zhí)枺?/td> | 201010562470.9 | 申請日: | 2010-11-29 |
| 公開(公告)號: | CN101976270A | 公開(公告)日: | 2011-02-16 |
| 發(fā)明(設(shè)計)人: | 錢鋼;王海;沈玲玲;姜乃松;馮向前;王艷軍 | 申請(專利權(quán))人: | 南京師范大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京天翼專利代理有限責(zé)任公司 32112 | 代理人: | 湯志武 |
| 地址: | 210097 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 不確定 推理 文本 層次 分類 方法 裝置 | ||
1.一種基于不確定推理的文本層次分類方法,其特征在于,所述方法包括如下步驟:
從訓(xùn)練文本中提取特征;
確定分類問題的辨識框架和焦元集合;
利用特征的權(quán)重構(gòu)造基本可信度分配函數(shù)(BPA);
根據(jù)基本可信度分配函數(shù)和待分類文本的特征權(quán)重合成待分類文本的信度分配;
利用信度分布根據(jù)分類規(guī)則對待分類文本進行分類。
2.如權(quán)利要求1的方法,其特征在于,所述從訓(xùn)練文本中提取特征包括:
對文本進行分詞,統(tǒng)計詞頻,將文本表示成TF向量和BINARY向量,計算文本中詞的TF*IDF值,根據(jù)權(quán)重提取特征;文本中特征的權(quán)重包括:
其中,W(di,fj)為文本di中特征fj的權(quán)重,TF(di,fj)為文本di中特征fj的頻數(shù),IDF(fj)為特征fj的反文檔頻率。
3.如權(quán)利要求1的方法,其特征在于,確定分類問題的辨識框架和焦元集合,是將所有的葉子節(jié)點類的集合確定為分類問題的辨識框架;將除根節(jié)點外的所有節(jié)點類的集合作為分類問題的焦元集合;焦元集合中的非葉子節(jié)點類焦元的信度是指分配在該大類上且不確定該分配給該大類的哪個子類的信度。
4.如權(quán)利要求1的方法,其特征在于,所述根據(jù)特征的權(quán)重構(gòu)造基本可信度分配函數(shù)包括:
m(ci,fj)=W(di,fj)/Sj
其中,m(ci,fj)為特征fj屬于焦元集合中的類ci,的可信度,Sj為焦元集合中的所有類上特征fj的權(quán)重之和。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京師范大學(xué),未經(jīng)南京師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010562470.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





