日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法有效

專利信息
申請(qǐng)?zhí)枺?/td> 201410629761.3 申請(qǐng)日: 2014-11-10
公開(公告)號(hào): CN104346459B 公開(公告)日: 2017-10-27
發(fā)明(設(shè)計(jì))人: 馬廷淮;金傳鑫;侯榮濤;田偉;薛羽 申請(qǐng)(專利權(quán))人: 南京信息工程大學(xué)
主分類號(hào): G06F17/30 分類號(hào): G06F17/30
代理公司: 南京眾聯(lián)專利代理有限公司32206 代理人: 顧進(jìn),葉涓涓
地址: 210044 *** 國省代碼: 江蘇;32
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 術(shù)語 頻率 統(tǒng)計(jì) 文本 分類 特征 選擇 方法
【說明書】:

技術(shù)領(lǐng)域

發(fā)明屬于文本挖掘與信息檢索領(lǐng)域,具體涉及的是一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法。

背景技術(shù)

文本分類(Text Classification或Text Categorization)是預(yù)先設(shè)定的類別集合,根據(jù)文本內(nèi)容確定文本所屬類型。在文本分類中,通常用向量空間模型作為文本的表示模型,該模型是應(yīng)用效果最好的文本表示模型之一;文本中的詞或詞組作為特征,但是在大量的特征中,存在很多冗余特征和噪聲特征,而龐大的特征空間維數(shù)會(huì)降低分類器的性能和泛化能力,產(chǎn)生“過學(xué)習(xí)”現(xiàn)象。同時(shí),處理高維向量需要極高的時(shí)間復(fù)雜度,進(jìn)而會(huì)產(chǎn)生“維數(shù)災(zāi)難”。因此,我們需要通過特征降維,來提高分類器的效率和精度,特征降維分為特征選擇和特征提取。

特征選擇是目前最常用的降維方法,其本質(zhì)是從一個(gè)高維空間根據(jù)某種準(zhǔn)則變換到一個(gè)較低維的空間,并且使得該低維空間有比較好的類別可分性,從而提高分類器的分類效率和精度。比較常用的特征選擇方法主要有文檔頻率(document frequency,DF)、互信息(mutual information,MI)、期望交叉熵(expected cross entropy,ECE)、卡方統(tǒng)計(jì)(Chi-square statistic,CHI)、信息增益(information gain,IG)等;近年來國內(nèi)外學(xué)者還提出了其他的特征選擇方法,例如,張玉芳等人提出了綜合比率(CR)方法,通過把數(shù)據(jù)集分成正類和負(fù)類,綜合考慮特征項(xiàng)在正類和負(fù)類中的分布,結(jié)合四種衡量特征類別區(qū)分能力的指標(biāo),構(gòu)造了CR特征選擇方法來選擇特征;馮霞等人提出了基于假設(shè)檢驗(yàn)的選擇方法,利用特征與文檔類在term-category四格表中相互獨(dú)立與互不相關(guān)等價(jià)的性質(zhì)來選擇特征。美國卡內(nèi)基梅隆大學(xué)的Yang教授針對(duì)文本分類問題,在分析比較了DF、MI、IG、CHI等方法后,得出IG和CHI方法分類效果相對(duì)較好的結(jié)論,并且,CHI和IG在多次的實(shí)驗(yàn)中表現(xiàn)出了良好的準(zhǔn)確性。但是上述這些特征選擇方法都具有缺陷,比如卡方統(tǒng)計(jì)方法對(duì)低頻詞的倚重大,不能很好地過濾低頻詞中的噪音詞。

發(fā)明內(nèi)容

我們通過分析發(fā)現(xiàn),現(xiàn)有卡方統(tǒng)計(jì)方法只考慮了特征詞的文檔頻率,并沒有考慮特征的術(shù)語詞頻,所以夸大了低頻術(shù)語的作用。例如傳統(tǒng)卡方統(tǒng)計(jì)方法只統(tǒng)計(jì)文檔中是否出現(xiàn)術(shù)語t,并沒有考慮術(shù)語t在文檔中出現(xiàn)的次數(shù),致使傳統(tǒng)方法更傾向于選擇文檔頻率高的特征,忽略了文檔頻率較低但是詞頻較高的詞匯的貢獻(xiàn)度,此外,傳統(tǒng)卡方統(tǒng)計(jì)方法沒有考慮術(shù)語的分布差異度的問題。基于上述問題,本發(fā)明公開了一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法,利用最大術(shù)語頻率來修正傳統(tǒng)卡方統(tǒng)計(jì)方法對(duì)術(shù)語頻率低但文檔頻率高的術(shù)語的偏袒;同時(shí)利用平均術(shù)語頻率和統(tǒng)計(jì)學(xué)上的標(biāo)準(zhǔn)方差的方法,來修正傳統(tǒng)卡方統(tǒng)計(jì)方法未考慮分布差異度的缺陷。

為了達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:

一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法,包括如下步驟:

步驟(1),對(duì)語料庫數(shù)據(jù)集進(jìn)行預(yù)處理;

步驟(2),對(duì)經(jīng)過步驟(1)處理得到的數(shù)據(jù)集中的對(duì)象根據(jù)向量空間模型均表示為向量形式,得到數(shù)據(jù)對(duì)象向量集合D={d1,d2,...dN},類標(biāo)簽集合C={c1,c2,...c|C|},dj表示語料庫數(shù)據(jù)集中的一個(gè)文檔(1≤j≤N),ck表示語料庫數(shù)據(jù)集中的一個(gè)類;

步驟(3),計(jì)算術(shù)語ti在文本分類ck中的最大術(shù)語頻率和平均術(shù)語頻率

步驟(4),通過下式計(jì)算術(shù)語ti在ck類中的分布差異度:

其中,α表示一個(gè)很小的實(shí)數(shù);

步驟(5),利用步驟(3)和步驟(4)得到的最大術(shù)語頻率及分布差異度,通過下式計(jì)算該術(shù)語ti在ck類中的權(quán)重:

其中,

步驟(6),計(jì)算得到該術(shù)語ti在每個(gè)類中的權(quán)重,通過下式得到術(shù)語ti在語料庫數(shù)據(jù)集中的權(quán)重:

步驟(7),計(jì)算得到每一個(gè)術(shù)語在語料庫數(shù)據(jù)集中的權(quán)重,并降序排列,選出值最大的前N個(gè)術(shù)語作為特征。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京信息工程大學(xué),未經(jīng)南京信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201410629761.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 久久精品亚洲一区二区三区画质| 日本一区二区在线观看视频| 欧美在线一级va免费观看| 精品国产91久久久| 国产婷婷色一区二区三区在线| 国产精品一级在线| 26uuu亚洲国产精品| 欧美亚洲国产日韩| 国产69精品久久久久按摩 | 国产精品久久久久久亚洲美女高潮| 久久国产精品二区| 国产农村妇女精品一二区| 欧美激情国产一区| 国产伦理精品一区二区三区观看体验| 狠狠色丁香久久综合频道日韩| 午夜av资源| 国产精品视频一二区| 日韩精品一区在线视频| 亚洲精品456| 亚洲国产一区二区精华液| 国产一级精品在线观看| 国产精品一区一区三区| 欧美系列一区| 在线视频国产一区二区| 国产精自产拍久久久久久蜜| 中文天堂在线一区| 精品国产乱码久久久久久老虎| 久久99中文字幕| 99re6国产露脸精品视频网站| 狠狠色噜噜狠狠狠四色米奇| 夜夜夜夜夜猛噜噜噜噜噜gg| 久久国产精品波多野结衣| 男女午夜爽爽| 国产一区三区四区| 99国产精品99久久久久久粉嫩| 国91精品久久久久9999不卡| 香港日本韩国三级少妇在线观看 | 亚洲乱码一区二区| 91久久久久久亚洲精品禁果| 欧美日韩一区二区三区69堂| 免费观看黄色毛片| 97视频一区| 亚洲精品久久久久不卡激情文学| 国产精品美女一区二区视频| 欧美日韩一级在线观看| 艳妇荡乳欲伦2| xxxx国产一二三区xxxx| av午夜剧场| 亚洲第一天堂无码专区| 国产日韩欧美中文字幕| 久久久中精品2020中文| 欧美3p激情一区二区三区猛视频 | 国产精品视频久久久久久 | 日韩av三区| 91精品一区| 欧美日韩一区二区三区不卡| 99欧美精品| 日韩欧美国产第一页| 午夜毛片在线观看| 国产综合亚洲精品| 午夜社区在线观看| 国产无套精品久久久久久| 国产精品一区在线播放| 韩国女主播一区二区| 国产一区在线免费观看| 日韩精品免费一区二区三区| 国产精品三级久久久久久电影| 国产一区二区综合| 自拍偷在线精品自拍偷写真图片| 综合国产一区| 国产伦理一区| 国产精品9区| 国产真实一区二区三区| 国产精品一区二| 国产日韩区| 日日夜夜一区二区| 一级午夜影院| 日韩不卡毛片| 在线视频国产一区二区| 国产麻豆精品一区二区| 久久午夜精品福利一区二区| 久久久久偷看国产亚洲87| 狠狠色狠狠色很很综合很久久| 久草精品一区| 91麻豆精品一区二区三区| 久久久中精品2020中文| 国产精品一区二区6| 99三级视频| 销魂美女一区二区| 性色av色香蕉一区二区| 午夜电影天堂| 99久久国产综合精品色伊| 日本一区二区三区免费视频 | 91久久精品国产亚洲a∨麻豆| 国产精品亚州| 国产偷国产偷亚洲清高| 精品国产乱码久久久久久久| 亚洲国产美女精品久久久久∴| 午夜欧美a级理论片915影院| 亚洲国产精品一区二区久久,亚洲午夜| 日本xxxxxxxxx68护士| 国产精品黑色丝袜的老师| 久久午夜精品福利一区二区 | 欧美一区久久| 日本久久不卡| 国产精品爽到爆呻吟高潮不挺| 一区二区三区国产视频| 欧美高清视频一区二区三区| 精品国产一区二区三区免费| 精品午夜电影| 国产欧美一区二区三区在线播放| 色婷婷精品久久二区二区我来| 亚洲精品www久久久| 最新国产精品自拍| 日韩一级视频在线| 亚洲国产偷| 国产一区二区影院| 亚洲国产精品二区| 99精品一级欧美片免费播放| 狠狠色噜噜狠狠狠四色米奇| 综合国产一区| 欧美日韩一区二区三区不卡视频| 午夜精品一区二区三区在线播放| 丰满岳妇伦4在线观看| 狠狠色狠狠色合久久伊人| 亚洲精品国产91| 国产在线视频二区| 91精品视频在线观看免费| 精品福利一区二区| 国产69久久| 99视频国产精品| 91精品久久天干天天天按摩| 欧美一级久久久| 欧美色综合天天久久综合精品| 中文字幕在线一二三区| 国产国产精品久久久久| 国产午夜精品一区| 精品久久一区| 午夜激情免费电影| 欧美在线观看视频一区二区| av毛片精品| 精品久久香蕉国产线看观看gif | 日本一二三区视频在线| 国产无套精品一区二区| 少妇高清精品毛片在线视频| 亚洲欧美精品suv| 精品国产18久久久久久依依影院| 99国产午夜精品一区二区天美 | 久久久久久久亚洲视频| xx性欧美hd| 91麻豆精品国产91久久| 亚洲va国产2019| 99精品欧美一区二区三区美图| 欧美一区二区三区视频在线观看| 一区精品二区国产| 性色av色香蕉一区二区| 精品国产一级| 日韩精品中文字| 91精品黄色| 美日韩一区| 国产精品色在线网站| 国产乱子伦农村xxxx| 思思久久96热在精品国产| 欧美日韩国产精品综合| 97人人揉人人捏人人添| 欧美极品少妇xxxxⅹ| 不卡在线一区二区| 国产精品麻豆99久久久久久| 国产日韩欧美精品| 波多野结衣女教师30分钟| 99久久国产免费,99久久国产免费大片 | 国产精品久久久久激情影院| 欧美一区二区三区艳史| 亚洲精品一品区二品区三品区 | 欧美日韩国产一区在线| 中文字幕一区二区在线播放| 久久久久国产亚洲日本| 自拍偷在线精品自拍偷无码专区 | 久久99精品久久久久婷婷暖91| 日本一区欧美| 国产日产精品一区二区| 国产一区二区三区在线电影| 精品久久一区| 性生交大片免费看潘金莲| 91一区二区三区在线| 午夜毛片在线看| 99国产超薄丝袜足j在线观看| 久久国产精品网站| 欧美日韩精品在线播放| 中文字幕视频一区二区| 国产偷亚洲偷欧美偷精品 | 国产jizz18女人高潮| 亚洲久色影视| 中文字幕一区二区三区免费| 久久久久久久亚洲国产精品87| 国产精品久久久综合久尹人久久9| 亚洲第一天堂无码专区| 少妇高清精品毛片在线视频| 国产91清纯白嫩初高中在线观看| 中文字幕日本一区二区| 国产高清无套内谢免费| 九九久久国产精品| 国产91丝袜在线熟| 国产精品午夜一区二区| 久久99精品久久久久国产越南| 销魂美女一区二区| 日韩午夜一区| 中日韩欧美一级毛片| 偷拍久久精品视频| 91中文字幕一区| 99精品少妇| 国产伦精品一区二区三区免费优势 | 国产精品乱综合在线| 日本神影院一区二区三区| 视频二区狠狠色视频| 日本三级香港三级| 国产乱码精品一区二区三区中文| 99久久久久久国产精品| 精品久久9999| 色吊丝av中文字幕| 欧美一区二区综合| 国产视频在线一区二区| 波多野结衣女教师30分钟| 自偷自拍亚洲| 日韩欧美激情| 91午夜在线观看| 午夜影院伦理片| 国产精品综合久久| 又黄又爽又刺激久久久久亚洲精品| 精品少妇一区二区三区| 国产精品欧美一区二区三区奶水| 91人人精品| 亚洲欧洲日韩在线| 欧美一区二区三区激情| 日韩午夜电影在线| 国产一区二区三区影院| 午夜特片网| 好吊妞国产欧美日韩软件大全| 制服.丝袜.亚洲.另类.中文| 精品国产一区二区三区四区四| 欧美老肥婆性猛交视频| 欧美在线一级va免费观看| 国产日韩欧美综合在线| 国产精品天堂| 99久久精品一区| 久久免费视频99|