[發明專利]一種基于局部隨機詞匯密度模型POI中文文本分類的方法有效
| 申請號: | 201310577670.5 | 申請日: | 2013-11-19 |
| 公開(公告)號: | CN103605729B | 公開(公告)日: | 2017-06-06 |
| 發明(設計)人: | 段煉;胡寶清;覃開賢 | 申請(專利權)人: | 段煉 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京輕創知識產權代理有限公司11212 | 代理人: | 談杰 |
| 地址: | 廣西壯族自治區南*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 局部 隨機 詞匯 密度 模型 poi 中文 文本 分類 方法 | ||
1.一種基于局部隨機詞匯密度模型POI中文文本分類的方法,其特征在于,該基于局部隨機詞匯密度模型海量興趣點POI中文文本分類的方法包括以下步驟:
采用貝葉斯分類器判斷文本主題是否為POI相關,利用改進的詞匯集中度、離散度和頻度方法,篩選出特征詞以構建特征空間;
依據文本與各POI類別的相似度進行局部區域劃分,在每個局部區域內通過特征映射矩陣將文本轉為特征向量;
最終利用SVM進行POI文本分類;
具體的步驟為:
第一步,文檔有效性判斷:采用貝葉斯分類器,基于文檔詞頻向量模型進行分類器訓練,只要文本中含有較多某一類或若干類POI常涉及的詞匯,則即可被判斷為有效;再建立局部隨機詞匯密度模型;
第二步,基于詞匯離散度、集中度和頻度選取出特征詞,以特征詞為維度構建特征空間;
第三步,局部區域劃分:在局部區域劃分方法中,屬于同一POI類別的文本均屬于相同的局部區域,且每個局部區域需包含其他各類別一定數量的文本作為反例,為每個局部區域設置反例文本數量的方法為:
設類別總數為m,當前設置反例數量的類別為cx,計算ci(i∈{1,…,x-1,x+1,…,m})中所有文檔與類別cx的相似度(dij表示ci類別中第j篇文檔),相似度大于閾值λ的文本作為cx的反例,相似度公式為:
其中,distij→x(dij,dxv)為類別i內文檔j和類別cx內文檔v的文本距離;
第四步,局部特征映射矩陣的獲取:求解每個局部區域內的映射矩陣Mj(j表示第j個局部區域),映射矩陣的獲取過程,Mj表示為M,具體方法為:
步驟一,定義
詞匯表:W={w1,w2,…,wn},為POI文本集中所有的詞匯,其中詞匯總數為n=|W|;
文檔詞頻向量模型:d={x1,x2,…,xj,…xn},其中,xj代表詞匯wj在文檔中出現的次數;
某局部文檔集合:X={d1,d2,…,dt},t=|X|,為某局部區域文檔數量;
文檔類別:Y={y1,y2,…,yc},其中,yj表示cj類別的文本數量;
特征詞:F={wf1,wf2,…,wfr}∈W,其中,r=|F|且r<<n,為特征詞數量,也為特征空間的維度總數;
步驟二,虛擬文檔構建
基于概率p刪除原始文本詞頻向量中的每一個詞匯,經過u次這樣的操作,便為每個文本向量di創建u個虛擬文檔矢量
步驟三,局部特征映射矩陣計算公式:假設存在特征向量用以表達文本di在局部區域內的正確特征向量,學習映射矩陣以使得所有虛擬文檔通過其被轉換到特征空間后,與其正確特征向量的誤差平方和最小:
由上,可在局部區域中利用局部區域文檔定義局部虛擬文檔集合矩陣:
類似,在局部文檔空間中定義t組由所有文檔的正確特征向量構成的矩陣,其中每組包含u個相同的正確文本特征向量:
由此,局部區域文本重構誤差平方為:
其中,為Frobenius平方范式,上式的最小化可以通過最小線性二乘法求得:
M=RQ-1,而
第五步,映射矩陣求解:假設該局部區域中虛擬文檔向量的總數趨向于無窮,即t→∞,這時式中的R和Q將收斂到他們的期望值,變為:
M=E[R]E[Q]-1
而R和Q的期望值分別為:
標準因子分解能求解出期望值,定義矢量q:
其中,(1-p)為詞匯在虛擬文檔向量中的存在概率,由局部文檔的散布矩陣為S=DDT,可知:
E[R]αβ=Sαβqα;E[Q]αβ=Sαβqαqβ,if α≠β或E[Q]αβ=Sαβqα,if α=β
其中,α、β分別為矩陣的行列值,E[Q]對角線上的元素為同一詞匯相乘的結果,詞匯在虛擬文檔向量中存在的概率為(1-p),因此,E[Q]對角線上的元素等于S乘上q,而E[Q]非對角線上的元素為兩個不同詞匯相乘的結果,因此,兩個不同詞匯同時存在的概率為(1-p)2,即E[Q]非對角線上的元素等于S乘上qα和qβ;
第六步,特征向量的歸一化:通過線性映射M:可將文檔轉換到特征空間,為了對大規模POI文本向特征空間轉換時表達和計算的方便,利用sigmoid函數對映射公式進行平滑和歸一化處理:
此時,原始文檔向量di通過映射矩陣M即可對應到特征空間向量si,其中a和b為可調系數,以便依據POI文本集中詞匯分布特點調整特征詞之間的語義距離;
第七步,詞匯刪除和重建過程的迭代:映射矩陣對不同文本中特征詞與普通詞的映射能力較弱,這可通過第一步至第五步迭代執行,讓映射矩陣進一步反映特征詞之間的語義關系來解決這一問題,即在每次迭代中將局部區域文本通過映射矩陣Mj轉為特征向量,再將特征向量作為原始文本向量,再一次進行詞匯刪除和重建過程,從而得到新的特征映射矩陣Mj+1,依此反復,最終存在一個k值,使得經過k次迭代后,文檔特征向量收斂于某個固定向量;
假設文檔di經過了k次模型迭代,最終得到的特征空間向量為:
第八步,分類器訓練和分類:在每個局部區域中,利用其映射矩陣將訓練集中所有文本轉換為特征向量,并放入該局部區域的二值分類器進行訓練,之后該分類器就能用來判斷測試文本是否為該局部區域所屬的POI類別,同樣,在每個局部區域執行第二步至第七步的操作,即可最終判斷測試文本所屬的POI類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于段煉,未經段煉許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310577670.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:環形連續變速傳動裝置
- 下一篇:一種韭菜殺蛆劑





