[發明專利]基于信息增益的英文社交媒體賬號分類方法在審
| 申請號: | 201710700487.8 | 申請日: | 2017-08-16 |
| 公開(公告)號: | CN107463703A | 公開(公告)日: | 2017-12-12 |
| 發明(設計)人: | 費高雷;朱聞一;陳浩;趙海林;謝星辰 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00 |
| 代理公司: | 成都宏順專利代理事務所(普通合伙)51227 | 代理人: | 周永宏 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 信息 增益 英文 社交 媒體 賬號 分類 方法 | ||
技術領域
本發明屬于文本分類技術領域,特別涉及一種基于信息增益的英文社交媒體賬號分類方法。
背景技術
文本分類技術,是信息檢索和文本挖掘的重要基礎,其主要任務是在預先給定的類別標記集合下,根據文本內容判定它的類別。文本分類在自然語言處理與理解、信息組織與管理、內容信息過濾等領域有著廣泛的應用。20世紀90年代逐漸成熟的基于機器學習的文本分類方法,更注重分類器的模型自動挖掘和生成及動態優化能力,在分類效果和靈活性上都比之前基于知識工程和專家系統的文本分類模式有所突破,成為相關領域研究和應用的經典范例。
對于文本分類這一課題,已經有一些常用的流程。基于機器學習文本分類的基礎技術由文本的表示、分類方法及效果評估三部分組成。其中文本表示主要用到了項或特征的向量空間表示模型以及特征選擇、特征提取等特征提取方法。分類方法主要用到了一些較成熟的分類模型方法,如樸素貝葉斯、支持向量機等。分類效果指標有例如正確率(precision)、召回率(recall)、精度(accuracy)等。但是,文本種類的多樣性、標注的困難等問題還是給文本分類帶來了巨大的挑戰。
隨著網絡技術的發展,社交媒體已經成為最大最活躍的社交平臺,為數億用戶提供優質且良好的溝通渠道。社交媒體在人們的日常生產生活中扮演著越來越重要的角色,社交媒體的賬號數量與日俱增,各種信息充斥于社交媒體中,使得從海量社交媒體數據中提取所關注領域信息的工作量十分巨大。社交媒體用戶由于個人愛好、工作性質等原因導致用戶發布的博文通常具有一定的領域性特點。如果能夠將海量的賬號根據其所關注領域進行分類,例如分為政治、經濟、體育等類別,那么我們就可以從某一類別的賬號中快速準確地獲取到所關注領域的信息,信息獲取更具有針對性。現有對賬號分類的研究主要集中于垃圾賬號識別這一方面,主要利用賬號的一些統計特征,例如一個賬號的好友數、發送狀態數量等等來對一些廣告賬號、僵尸賬號等垃圾賬號進行過濾。然而對于一個社交媒體賬號,怎樣判斷它涉及的內容是屬于體育、娛樂或是別的領域的,目前還沒有成熟的方法。而且社交網絡賬號發布的博文文本一般以短文本居多,如何利用社交媒體賬號的博文信息進行賬號分類成為了難點。利用文本分類的方法去進行社交媒體賬號的分類,迄今為止也沒有相關的研究。
發明內容
本發明的目的在于克服現有技術的不足,提供一種將常用的文本分類的方法應用于英文社交媒體的賬號分類,使用戶能從海量的賬戶中能夠快速查找出某一領域類別的賬號,并從中獲取該領域類別的相關有效信息的基于信息增益的英文社交媒體賬號分類方法。
本發明的目的是通過以下技術方案來實現的:基于信息增益的英文社交媒體賬號分類方法,包括以下步驟:
S1、數據預處理:對社交媒體賬號發布的博文做分詞處理、去除停止詞及無用符號處理,得到賬號的特征詞;
S2、特征選取:利用信息增益的方法對賬號的特征詞進行選擇,得到具有類別代表性的特征詞;
S3、特征擴散:利用wordnet尋找特征詞的近義詞和人工增加領域類別的一些關鍵詞來對S2得到的特征詞進行擴散;
S4、分類模型構建:人工標注少量賬號樣本,并利用詞袋模型,選用詞頻對賬號進行特征的提取,構建樣本訓練集;然后采用機器學習技術進行處理,生成賬號分類的分類模型,實現對英文社交媒體賬號的識別;
S5、對未知的社交媒體賬號進行分類:利用步驟S4生成的分類模型,對未知的社交媒體賬號進行分類,得到未知社交媒體賬號的類別屬性,完成社交媒體賬號類別的劃分。
進一步地,所述步驟S1具體實現方法為:
分詞處理:將賬號的文本語句切分成字詞,以字詞來作為特征表征一個賬號;
去除停止詞及無用符號處理:將冠詞、介詞設置為停止詞,將語句的標點符號設置為無用符號;將停止詞和無用符號刪除。
進一步地,所述步驟S2具體實現方法為:信息增益是一種基于熵的評估方法,其用于特征選擇時,衡量的是某個詞的出現與否對判斷一個文本是否屬于某個類所提供的信息量;其定義為某一特征值在文檔中出現前后的信息量之差,計算公式為:
其中P(ω)表示特征詞ω在文本中出現的概率;P(ci|ω)表示文本包含ω時屬于ci類的條件概率;P(ci)表示ci類文本在文本集中出現的概率;表示文本中不包含特征詞ω的概率,表示文本不包含特征詞ω時屬于ci類的條件概率,|c|表示類別總數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710700487.8/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





