[發(fā)明專(zhuān)利]基于信息增益的英文社交媒體賬號(hào)分類(lèi)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710820897.6 | 申請(qǐng)日: | 2017-09-13 |
| 公開(kāi)(公告)號(hào): | CN107463715A | 公開(kāi)(公告)日: | 2017-12-12 |
| 發(fā)明(設(shè)計(jì))人: | 費(fèi)高雷;朱聞一;胡光岷;于富財(cái) | 申請(qǐng)(專(zhuān)利權(quán))人: | 電子科技大學(xué) |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30;G06Q50/00 |
| 代理公司: | 成都宏順專(zhuān)利代理事務(wù)所(普通合伙)51227 | 代理人: | 周永宏 |
| 地址: | 611731 四川省成*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 信息 增益 英文 社交 媒體 賬號(hào) 分類(lèi) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)文本分類(lèi)領(lǐng)域,特別涉及一種英文社交媒體賬號(hào)分類(lèi)技術(shù)。
背景技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,社交媒體已經(jīng)成為最大最活躍的社交平臺(tái),為數(shù)億用戶(hù)提供優(yōu)質(zhì)且良好的溝通渠道。然而,隨著社交媒體用戶(hù)數(shù)量的劇增和各種信息的交流互動(dòng),社交網(wǎng)絡(luò)正朝著多樣性、復(fù)雜性的方向發(fā)展。對(duì)于一個(gè)特定的賬號(hào)來(lái)說(shuō),它所發(fā)布的博文一般是會(huì)屬于某一領(lǐng)域類(lèi)別的,所謂領(lǐng)域類(lèi)別就是這個(gè)賬號(hào)發(fā)布的博文是屬于政治、經(jīng)濟(jì)還是體育、娛樂(lè),抑或是其他的方面。例如如果一個(gè)賬號(hào)它所發(fā)布的博文大部分是關(guān)于體育方面的,那么就認(rèn)為這個(gè)賬號(hào)是體育類(lèi)賬號(hào)。如果能對(duì)于社交媒體中的這些海量的賬號(hào)根據(jù)其發(fā)布的博文進(jìn)行領(lǐng)域類(lèi)別的劃分,那么人們能夠通過(guò)關(guān)注某一領(lǐng)域的賬號(hào)快速準(zhǔn)確地獲取這一領(lǐng)域的相關(guān)信息。
文本分類(lèi)技術(shù),是信息檢索和文本挖掘的重要基礎(chǔ),其主要任務(wù)是在預(yù)先給定的類(lèi)別標(biāo)記集合下,根據(jù)文本內(nèi)容判定它的類(lèi)別。文本分類(lèi)在自然語(yǔ)言處理與理解、信息組織與管理、內(nèi)容信息過(guò)濾等領(lǐng)域有著廣泛的應(yīng)用。20世紀(jì)90年代逐漸成熟的基于機(jī)器學(xué)習(xí)的文本分類(lèi)方法,更注重分類(lèi)器的模型自動(dòng)挖掘和生成及動(dòng)態(tài)優(yōu)化能力,在分類(lèi)效果和靈活性上都比之前基于知識(shí)工程和專(zhuān)家系統(tǒng)的文本分類(lèi)模式有所突破,成為相關(guān)領(lǐng)域研究和應(yīng)用的經(jīng)典范例。
對(duì)于文本分類(lèi)這一課題,已經(jīng)有一些常用的流程。基于機(jī)器學(xué)習(xí)文本分類(lèi)的基礎(chǔ)技術(shù)由文本的表示、分類(lèi)方法及效果評(píng)估三部分組成。其中文本表示主要用到了項(xiàng)或特征的向量空間表示模型以及特征選擇、特征提取等特征提取方法。分類(lèi)方法主要用到了一些較成熟的分類(lèi)模型方法,如樸素貝葉斯、支持向量機(jī)等。分類(lèi)效果指標(biāo)有例如正確率(precision)、召回率(recall)、精度(accuracy)等。但是,文本種類(lèi)的多樣性、標(biāo)注的困難等問(wèn)題還是給文本分類(lèi)帶來(lái)了巨大的挑戰(zhàn)。利用文本分類(lèi)的方法去進(jìn)行社交媒體賬號(hào)的分類(lèi),迄今為止還沒(méi)有相關(guān)的研究。而且社交網(wǎng)絡(luò)賬號(hào)發(fā)布的博文文本一般以短文本居多,如何利用社交媒體賬號(hào)的博文信息進(jìn)行賬號(hào)分類(lèi)成為了難點(diǎn)。這就需要要從賬號(hào)的博文中提取類(lèi)間區(qū)分度明顯、并且能夠具有很好的類(lèi)別代表性的特征來(lái)對(duì)社交媒體賬號(hào)進(jìn)行準(zhǔn)確有效地區(qū)分。
當(dāng)前,社交媒體在人們的日常生產(chǎn)生活中扮演著越來(lái)越重要的角色,社交媒體的賬號(hào)數(shù)量與日俱增,各種信息充斥于社交媒體中,使得從海量社交媒體數(shù)據(jù)中提取所關(guān)注領(lǐng)域信息的工作量十分巨大。社交媒體用戶(hù)由于個(gè)人愛(ài)好、工作性質(zhì)等原因?qū)е掠脩?hù)發(fā)布的博文通常具有一定的領(lǐng)域性特點(diǎn)。如果能夠?qū)⒑A康馁~號(hào)根據(jù)其所關(guān)注領(lǐng)域進(jìn)行分類(lèi),例如分為政治、經(jīng)濟(jì)、體育等類(lèi)別,那么就可以從某一類(lèi)別的賬號(hào)中快速準(zhǔn)確地獲取到所關(guān)注領(lǐng)域的信息,信息獲取更具有針對(duì)性。現(xiàn)有對(duì)賬號(hào)分類(lèi)的研究主要集中于垃圾賬號(hào)識(shí)別這一方面,主要利用賬號(hào)的一些統(tǒng)計(jì)特征,例如一個(gè)賬號(hào)的好友數(shù)、發(fā)送狀態(tài)數(shù)量等等來(lái)對(duì)一些廣告賬號(hào)、僵尸賬號(hào)等垃圾賬號(hào)進(jìn)行過(guò)濾。然而對(duì)于一個(gè)社交媒體賬號(hào),怎樣判斷它涉及的內(nèi)容是屬于體育、娛樂(lè)亦或是別的領(lǐng)域的,目前還沒(méi)有成熟的方法。
發(fā)明內(nèi)容
本發(fā)明為解決上述技術(shù)問(wèn)題,提出了一種基于信息增益的英文社交媒體賬號(hào)分類(lèi)方法,運(yùn)用文本分類(lèi)的方法,利用英文社交媒體的賬戶(hù)發(fā)布的博文文本信息,來(lái)對(duì)英文社交媒體賬號(hào)進(jìn)行領(lǐng)域類(lèi)別的分類(lèi),為快速地查找某一類(lèi)信息提供了方便。
本發(fā)明采用的技術(shù)方案是:基于信息增益的英文社交媒體賬號(hào)分類(lèi)方法,包括:
S1、數(shù)據(jù)預(yù)處理,得到各社交賬號(hào)對(duì)應(yīng)的特征詞;
S2、根據(jù)信息增益對(duì)特征詞進(jìn)行選取;
S3、對(duì)步驟S2選取出來(lái)的特征詞進(jìn)行擴(kuò)展;
S4、根據(jù)步驟S3擴(kuò)展的特征詞構(gòu)建分類(lèi)模型;
S5、根據(jù)步驟S4建立的分類(lèi)模型對(duì)未知賬號(hào)進(jìn)行分類(lèi)。
進(jìn)一步地,步驟S3所述對(duì)特征詞進(jìn)行擴(kuò)展包括兩種方式,采用wordnet尋找特征詞的近義詞對(duì)特征詞進(jìn)行擴(kuò)展;和采用人工增加領(lǐng)域類(lèi)別的若干關(guān)鍵詞對(duì)特征詞進(jìn)行擴(kuò)展。
進(jìn)一步地,所述步驟S4具體為:通過(guò)標(biāo)注若干賬號(hào)樣本,并利用詞袋模型,選用詞頻對(duì)標(biāo)注若干賬號(hào)樣本進(jìn)行特征提取,構(gòu)建訓(xùn)練樣本集;然后采用支持向量機(jī)的機(jī)器學(xué)習(xí)算法對(duì)樣本集進(jìn)行分類(lèi)識(shí)別,生成賬號(hào)分類(lèi)的分類(lèi)模型。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710820897.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





