日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]基于實例獲取的非平衡交互文本的話題識別方法有效

專利信息
申請?zhí)枺?/td> 201310403755.1 申請日: 2013-09-06
公開(公告)號: CN103500159A 公開(公告)日: 2014-01-08
發(fā)明(設計)人: 田鋒;高鵬達;鄭慶華;吳凡 申請(專利權)人: 西安交通大學
主分類號: G06F17/27 分類號: G06F17/27;G06F17/30
代理公司: 西安通大專利代理有限責任公司 61200 代理人: 朱海臨
地址: 710049 *** 國省代碼: 陜西;61
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 基于 實例 獲取 平衡 交互 文本 話題 識別 方法
【權利要求書】:

1.一種基于實例獲取的非平衡交互文本的話題識別方法,其特征在于:包括如下步驟:

第一步:從源數(shù)據(jù)集中篩選實例階段:

(1)確定共有特征集中代表實例的特征集,即從源數(shù)據(jù)集DsetSource和目標數(shù)據(jù)集DsetTarget的共有特征集中選擇代表實例并且傾向于少數(shù)類的特征集,具體算法為:

Step:按照label空間所有類別計算FSource和FTarget各特征的信息增益值InformationGain,并將計算結果分別按降序排列各數(shù)據(jù)集特征,排序后的特征集如下:

FSource={fSource(1),fSource(2),…,fSource(i),…,fSource(R1)},1≤i≤R1

FTarget={fTarget(1),fTarget(2),…,fTarget(j),…,fTarget(R2)},1≤j≤R2

其中,fSource(i)是FSource中排序為第i個位置的特征,fTarget(j)是FTarget中排序為第j個位置的特征,R1為FSource中特征的總個數(shù),R2為FTarget中特征的總個數(shù),各特征是特征詞詞典中的詞,特征值為在類標簽空間label下,采用TF-IDF算法獲得的各特征值;

Step2:若F=FSource∩FTarget=φ成立,則,所提算法終止,實例獲取失敗;否則,有F(l)∈F,其中,F(xiàn)(l)為共有特征集F中第l個特征,1≤l≤M,M≤min{R1,R2},且定義有M個元素的數(shù)組TopN_IGratio,同時,設TopN_IGratio(m)表示數(shù)組TopN_IGratio的第m個元素中存儲的值;

Step3:確定共有特征F(m)在FSource中的位置n_Source,形成特征與位置對(n_Source,F(xiàn)(l)),并按照n_source的值升序排列所有特征與位置對,并記最大的位置n_source為MAX_n_source;確定共有特征F(m)在FTarget中的位置n_Target,形成特征與位置對(n_Target,F(xiàn)(l)),并按照n_Target的值升序排列所有特征與位置對,并記最大的位置n_Target為MAX_n_Target;將升序排序后的特征與位置對(n_source,F(xiàn)(l))放入新生產(chǎn)的二維數(shù)組Location中,且Location(m,col)表示Location中第m行第col列的元素,且1≤m≤M≤R1col={1,2};If?MAX_n_Target>Max_n_source則,令

Location(M,1)=MAX_n_Target,令m=1

Step4:N=Location(m,2),N≤R1

Step5:在DsetSource和DsetTarget的前N個特征中進行匹配,得到共有特征的子集Fs(m),并設Fs(m)的元素個數(shù)為np,計算以下評價函數(shù):

TopN_IGratio(m)=Σl=1npIGFSource(F(l))*F_Weight(l)Σi=1NFSource(i)]]>???(公式1)

其中:

F_Weight(l)=Σk=1Wp(tk,Cminority)*logp(tk,Cminority)p(tk)*p(Cminority)]]>???(公式2)

目,表示FSource中Top-N特征信息增益值求和;

表示FSource∩FTarget中第l個特征在FSource中的信息增益值;

F_Weight(l)對少數(shù)類實例的特征賦予權值;

tk為第l個共有特征F(l)的屬性值,共W個;

Cminority為數(shù)據(jù)集中少數(shù)類的類別;

是計算np個共有特征的信息增益值與權重的加權和;

Step6:m=m+1;如果m>M,則執(zhí)行Step7;否則,執(zhí)行Step4;

Step7:取數(shù)組TopN_IGratio中的最大值,并標記為TopN_IGratioMAX,并確定其在數(shù)組TopN_IGratio中的下標為mMAX,確定代表實例并且偏向于少數(shù)類特征的特征集FInstance,其維數(shù)為mMAX維,記為:

FInstance={fInstance(1),fInstance(2),…,fInstance(i),…,fInstance(mMAX)},1≤i≤mMAX?mMAX≤M≤min{R1,R2};

(2)以余弦相似度排序篩選源數(shù)據(jù)集實例,采用余弦函數(shù)計算每個少數(shù)類目標實例和源數(shù)據(jù)集中同類別實例的相似度,并按此相似度的值降序排序,針對每一個少數(shù)類目標實例,獲取前K個與目標數(shù)據(jù)集實例相似的源數(shù)據(jù)集實例,具體算法為:

Step1:以特征集FInstance作為特征空間,對源數(shù)據(jù)集DsetSource和目標數(shù)據(jù)集DsetTarget中的少數(shù)類實例進行表示,所得對應的少數(shù)類特征值向量如下:

InstanceSourceCminority=(fValuesource(1),...,fValuesource(i),...,fValuesource(mMAX)),1imMAX]]>

InstanceTargetCminority=(fValuetarget(1),...,fValuetarget(i),..,fValuetarget(mMAX)),1imMAX]]>

其中,和分別是特征集FInstance第i個維度fInstance(i)上相應的特征值;

Step2:是目標數(shù)據(jù)集DsetTarget中的少數(shù)類實例的第j個實例,(1≤j≤L),是源數(shù)據(jù)集DsetSource中同類別的少數(shù)類實例,(1≤n≤S),其中S是源數(shù)據(jù)集DsetSource中同類別的少數(shù)類實例的個數(shù),定義有S個元素的數(shù)組Similarity_value,同時設Similarity_value(a)表示數(shù)組Similarity_value第a個元素存儲的值,(1≤a≤S);定義算法的輸出為由K*S個實例組成的數(shù)據(jù)集DsetSimilarity,其中DsetSimilarity(instance(L))為第L個實例,K=S/L,1≤L≤K*S;

Step3:令j=1;

Step4:計算與DsetSource中所有同類別少數(shù)類實例(1≤n≤S)的余弦相似度,分別存儲到Similarity_value數(shù)組中;

???(公式3)

Step5:對Similarity_value數(shù)組降序排序,取排序值前Top-K所對應的DsetSource少數(shù)類實例存入DsetSimilarity;

Step6:j=j+1,如果j≤L,則執(zhí)行Step4;否則,程序結束,輸出DsetSimilarity;

第二步:實例特征向量空間一致性處理,即以實例相似度為權值合成實例的特征向量,使其與目標實例的特征向量空間一致,具體處理的過程為:

Step1:合成DsetSimilarity中實例在FTarget中除共有特征F外的特征向量,定義變量數(shù)組Similarity_value同第一步中(2)中的定義,定義算法的輸出為由K*S個實例組成的數(shù)據(jù)集DsetInstance,其中DsetInstance(instance(T))為第T個實例,K=S/L,1≤T≤K*S;

Step2:令j=1;

Step3:計算與DsetSource中所有同類別少數(shù)類實例(1≤n≤s)的余弦相似度,分別存儲到Similarity_value數(shù)組中,見公式3;

Step4:定義大小為K的數(shù)組sim_weight,K=S/L,設sim_weight(k)表示數(shù)組sim_weight第k個元素存儲的值,對Similarity_value數(shù)組降序排序,取前Top-K排序值,存入到數(shù)組sim_weight中;

Step5:以sim_weight數(shù)組的元素值作為權重合成實例的特征向量:

F_Instancek=sim_weight(k)*F_InstanceTarget(j),1kK]]>

其中,是的特征集FTarget中除共有特征F外的特征向量;

Step6:將與K個自身的共有特征向量F-Instancek合并,對K個實例進行最終表示,并將實例存儲到DsetInstance中;

Instancek={F_Instancek,F_Instancek},1kK]]>

Step7:j=j+1,如果j≤L,則執(zhí)行Step3;否則,程序結束,輸出DsetInstance

第三步:合并獲取的實例和目標數(shù)據(jù)集實例,將獲取的實例并入到目標數(shù)據(jù)集中形成新的數(shù)據(jù)集,共同在此數(shù)據(jù)集上利用基于線性核函數(shù)的SVM分類器訓練模型。

2.如權利要求1所述的基于實例獲取的非平衡交互文本的話題識別方法,其特征在于:所述第三步的合并獲取的實例和目標數(shù)據(jù)集實例的具體過程為:

Step1:將DsetInstance中的實例與DsetTarget的實例合并,形成新的數(shù)據(jù)集DsetNew,包括H個實例,實例的構成如下:

DsetNew(h)={fNew(1),…,fNew,(i),…,fNew(G),label(h)},1≤i≤G,1≤h≤H

其中:G為實例向量的特征維數(shù);fNew(i)為特征值;label(h)為第h個實例的類標簽;

Step2:在DsetNew上采用線性核函數(shù)的SVM分類器訓練模型model;

Step3:調(diào)用訓練得到的model,在測試數(shù)據(jù)集上完成話題分類任務。

下載完整專利技術內(nèi)容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經(jīng)西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201310403755.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產(chǎn)權局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 中文字幕av一区二区三区四区| 91精品一区二区在线观看| 乱子伦农村| 亚洲精品久久久久一区二区| 国产精品视频久久久久久久| 91午夜在线| 视频一区二区三区欧美| 96国产精品| 午夜看片在线| 欧美一区二区精品久久911| 久久久久久国产一区二区三区| 亚洲二区在线播放视频| 美女啪啪网站又黄又免费| www色视频岛国| 91狠狠操| 91麻豆精品国产自产欧美一级在线观看| 精品特级毛片| 久久艹亚洲| sb少妇高潮二区久久久久| 午夜毛片在线看| 97久久精品一区二区三区观看| 国产免费一区二区三区四区五区 | 午夜影院激情| 国产乱人乱精一区二视频国产精品| 午夜影院啪啪| 亚洲精品性| 日本三级韩国三级国产三级| 午夜av影视| 国产福利一区在线观看| 精品少妇一区二区三区免费观看焕| 99精品欧美一区二区三区美图| 欧美一区二区三区久久久精品| 色综合久久88| 狠狠色狠狠色综合系列| 日韩精品一区在线观看 | 欧美在线视频一二三区| 国产综合久久精品| 99热一区二区| 狠狠色噜噜狠狠狠狠视频| 日韩中文字幕亚洲欧美| 日韩夜精品精品免费观看| 91精品视频免费在线观看| 首页亚洲欧美制服丝腿| 国产精品无码专区在线观看 | 国产区91| 日韩a一级欧美一级在线播放| 国产91白嫩清纯初高中在线| 国产在线拍揄自揄拍| 偷拍久久精品视频| 欧美一区二区三区精品免费| 精品视频久| 国产伦精品一区二区三区电影| 91看片免费| 精品一区二区超碰久久久| 色妞妞www精品视频| 欧美日韩九区| 欧美一区二区三区日本| 欧美激情视频一区二区三区| 日韩av在线播| 国产伦精品一区二区三区照片91 | 国产无遮挡又黄又爽又色视频| 狠狠色很很在鲁视频| 亚洲高清毛片一区二区| 99视频一区| 亚洲欧美日韩另类精品一区二区三区| 国产91久久久久久久免费| 久久免费视频一区二区| 欧美精品日韩一区| 日本精品一二区| 日韩午夜一区| 国精产品一二四区在线看| 亚洲少妇一区二区三区| 国产一区二区电影在线观看| 国产精品久久久久久亚洲美女高潮 | 日本护士hd高潮护士| 欧美一区二三区| 久久国产精品久久久久久电车| 国产一区在线视频播放| 国产精品一二三区免费| 午夜无人区免费网站| 一区二区国产精品| 午夜wwwww|