[發(fā)明專利]半監(jiān)督分類方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310202411.4 | 申請日: | 2013-05-27 |
| 公開(公告)號: | CN103268346A | 公開(公告)日: | 2013-08-28 |
| 發(fā)明(設(shè)計)人: | 張長水;宋揚磊;楊逸飛;竇維蓓;翁時鋒 | 申請(專利權(quán))人: | 翁時鋒;張長水;竇維蓓 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海唯源專利代理有限公司 31229 | 代理人: | 曾耀先 |
| 地址: | 315194 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 監(jiān)督 分類 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本申請涉及計算機技術(shù)領(lǐng)域,特別涉及一種半監(jiān)督分類方法及系統(tǒng)。
背景技術(shù)
當(dāng)今互聯(lián)網(wǎng)上每天都會產(chǎn)生大量的信息,且每天都在以驚人的速度膨脹。諸如新聞評論、BBS、博客、聊天室、聚合新聞(RSS)等應(yīng)用每時每刻都會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)中包含人們對社會各種現(xiàn)象的各種觀點和立場,話題涉及政治、經(jīng)濟、軍事、娛樂、生活等各個領(lǐng)域,因此互聯(lián)網(wǎng)信息分類技術(shù)在話題跟蹤與發(fā)現(xiàn)、流行語分析、輿情預(yù)警等領(lǐng)域都有廣泛的應(yīng)用背景。
鑒于此,在當(dāng)前互聯(lián)網(wǎng)已經(jīng)成為重要網(wǎng)絡(luò)媒體、網(wǎng)上海量資源迅速膨脹的形勢下,基于自然語言理解領(lǐng)域,通過分類算法實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)的分類,對于互聯(lián)網(wǎng)信息監(jiān)管、輿論引導(dǎo)工作擁有廣泛而深遠的意義。但是人工對其加以分析和處理的速度已經(jīng)遠遠不能滿足要求,因而人們已經(jīng)開始著手研究用統(tǒng)計和學(xué)習(xí)的方法來對大量的信息進行自動處理和分類。
在傳統(tǒng)的機器學(xué)習(xí)中,通過各種各樣的手段獲取包括文本、語音、視頻和圖片在內(nèi)的各種數(shù)據(jù),假設(shè)所有的樣本獨立并服從一個確定的概率分布,并基于這樣的假設(shè),訓(xùn)練一個分類器,根據(jù)已知樣本預(yù)測未出現(xiàn)在訓(xùn)練集中的樣本,從而通過這種方法來實現(xiàn)數(shù)據(jù)的自動分類。
傳統(tǒng)的機器學(xué)習(xí)一般分為監(jiān)督學(xué)習(xí)(supervised?learning)和無監(jiān)督學(xué)習(xí)(unsupervised?learning)。監(jiān)督學(xué)習(xí)是指,對于一批樣本,不僅知道其中每一個樣本數(shù)據(jù)本身,還知道其對應(yīng)的類別標(biāo)簽。通過設(shè)計一個分類器,對這批樣本進行分類,進而能根據(jù)該劃分預(yù)測新樣本的類別標(biāo)簽。如圖1所示,“○”和“×”都是樣本數(shù)據(jù),且每個樣本都已知類別屬性,而圖中的直線則是最優(yōu)的分類器,通過該分類器對新數(shù)據(jù)進行分類。而無監(jiān)督學(xué)習(xí)是指,訓(xùn)練集中的樣本數(shù)據(jù)都沒有類別標(biāo)簽,通過分類算法把數(shù)據(jù)分成若干類,也稱之為聚類,如圖2所示。
然而在很多應(yīng)用的所要分析的海量數(shù)據(jù)中,只有一部分有類別標(biāo)簽,另外一部分卻沒有類別標(biāo)簽,這自然使得半監(jiān)督學(xué)習(xí)近年來成為研究的熱點。具體地,訓(xùn)練集中既有有標(biāo)注的樣本也有未標(biāo)注的樣本,如圖3所示,標(biāo)記為“O”和“X”的是已知類別的樣本,而用“△”標(biāo)注的都是未知類別樣本,半監(jiān)督學(xué)習(xí)即是指利用已標(biāo)注類別標(biāo)簽和未標(biāo)注類別標(biāo)簽的數(shù)據(jù)來設(shè)計分類器,半監(jiān)督學(xué)習(xí)對于減少標(biāo)注代價,提高學(xué)習(xí)機器性能具有非常重大的實際意義。
但是,半監(jiān)督學(xué)習(xí)分類算法從提出到現(xiàn)在時間比較短,主要用于處理人工合成數(shù)據(jù),還沒辦法在某個現(xiàn)實領(lǐng)域得到應(yīng)用,也就是說,其現(xiàn)實意義沒體現(xiàn)出來。因此,半監(jiān)督學(xué)習(xí)的實際應(yīng)用價值問題值得更多的研究。
此外,在許多應(yīng)用中,數(shù)據(jù)獨立同分布的假設(shè)并不成立。以文本信息為例,在主題論壇中,網(wǎng)友發(fā)帖的討論熱點會隨著時事熱點的演變而變化。比如,我們搜集某軍事論壇在一段時間內(nèi)的所有文章作為語料庫,那么我們可以發(fā)現(xiàn),雖然該論壇的文章總體上都屬于軍事相關(guān)的文章,但其討論熱點可能在九月初集中于“航母”而在十一月份轉(zhuǎn)移到了“殲-30”上。如果我們分批次采集數(shù)據(jù),那么不同時間采集到的數(shù)據(jù)分布就會有所不同。由于現(xiàn)有的分類算法大多不會將數(shù)據(jù)的演化性考慮在內(nèi),因而也增加了這部分數(shù)據(jù)分類錯誤的幾率。
由此,目前需要一種分類方法,可以將數(shù)據(jù)演化前后的聯(lián)系考慮在內(nèi)的同時,也可以將半監(jiān)督學(xué)習(xí)方法得到實際應(yīng)用,以達到更好的分類效果以及更高的分類準(zhǔn)確性。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種半監(jiān)督分類方法及系統(tǒng),以解決現(xiàn)有的互聯(lián)網(wǎng)數(shù)據(jù)分類方法沒有將演化性考慮在內(nèi),錯誤幾率較高的問題。
本發(fā)明提出一種半監(jiān)督分類方法,包括以下步驟:
構(gòu)建詞典,所述詞典中包括所有文本數(shù)據(jù)中出現(xiàn)的詞;
采集當(dāng)前時刻文本數(shù)據(jù),所述當(dāng)前時刻的一部分文本數(shù)據(jù)未標(biāo)注類別標(biāo)簽;
計算當(dāng)前時刻每一個文本數(shù)據(jù)相對于所述詞典的特征向量;
根據(jù)計算出的當(dāng)前時刻文本數(shù)據(jù)相對于所述詞典的特征向量,計算當(dāng)前時刻各個文本數(shù)據(jù)之間的相似性;
獲取預(yù)存的前一時刻文本數(shù)據(jù)及前一時刻數(shù)據(jù)相對于所述詞典的特征向量;
根據(jù)當(dāng)前時刻和前一時刻文本數(shù)據(jù)相對于所述詞典的特征向量,計算前一時刻的各個文本數(shù)據(jù)與當(dāng)前時刻各個文本數(shù)據(jù)之間的相似性;
根據(jù)當(dāng)前時刻文本數(shù)據(jù)之間的相似性以及前一時刻與當(dāng)前時刻的文本數(shù)據(jù)之間的相似性,獲取當(dāng)前時刻未標(biāo)注類別標(biāo)簽的文本數(shù)據(jù)的類別標(biāo)簽。
依照本發(fā)明較佳實施例所述的半監(jiān)督分類方法,構(gòu)建詞典時,去掉所述詞典中的定冠詞。
依照本發(fā)明較佳實施例所述的半監(jiān)督分類方法,構(gòu)建詞典時,合并派生詞以及合并詞的不同形式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于翁時鋒;張長水;竇維蓓,未經(jīng)翁時鋒;張長水;竇維蓓許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310202411.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機器人表情調(diào)用方法和家用機器人
- 計算機視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





