[發明專利]基于信息增益的英文社交媒體賬號分類方法在審
| 申請號: | 201710700487.8 | 申請日: | 2017-08-16 |
| 公開(公告)號: | CN107463703A | 公開(公告)日: | 2017-12-12 |
| 發明(設計)人: | 費高雷;朱聞一;陳浩;趙海林;謝星辰 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00 |
| 代理公司: | 成都宏順專利代理事務所(普通合伙)51227 | 代理人: | 周永宏 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 信息 增益 英文 社交 媒體 賬號 分類 方法 | ||
1.基于信息增益的英文社交媒體賬號分類方法,其特征在于,包括以下步驟:
S1、數據預處理:對社交媒體賬號發布的博文做分詞處理、去除停止詞及無用符號處理,得到賬號的特征詞;
S2、特征選取:利用信息增益的方法對賬號的特征詞進行選擇,得到具有類別代表性的特征詞;
S3、特征擴散:利用wordnet尋找特征詞的近義詞和人工增加領域類別的一些關鍵詞來對S2得到的特征詞進行擴散;
S4、分類模型構建:人工標注少量賬號樣本,并利用詞袋模型,選用詞頻對賬號進行特征的提取,構建樣本訓練集;然后采用機器學習技術進行處理,生成賬號分類的分類模型,實現對英文社交媒體賬號的識別;
S5、對未知的社交媒體賬號進行分類:利用步驟S4生成的分類模型,對未知的社交媒體賬號進行分類,得到未知社交媒體賬號的類別屬性,完成社交媒體賬號類別的劃分。
2.根據權利要求1所述的基于信息增益的英文社交媒體賬號分類方法,其特征在于,所述步驟S1具體實現方法為:
分詞處理:將賬號的文本語句切分成字詞,以字詞來作為特征表征一個賬號;
去除停止詞及無用符號處理:將冠詞、介詞設置為停止詞,將語句的標點符號設置為無用符號;將停止詞和無用符號刪除。
3.根據權利要求1所述的基于信息增益的英文社交媒體賬號分類方法,其特征在于,所述步驟S2具體實現方法為:信息增益是一種基于熵的評估方法,其用于特征選擇時,衡量的是某個詞的出現與否對判斷一個文本是否屬于某個類所提供的信息量;其定義為某一特征值在文檔中出現前后的信息量之差,計算公式為:
其中P(ω)表示特征詞ω在文本中出現的概率;P(ci|ω)表示文本包含ω時屬于ci類的條件概率;P(ci)表示ci類文本在文本集中出現的概率;表示文本中不包含特征詞ω的概率,表示文本不包含特征詞ω時屬于ci類的條件概率,|c|表示類別總數;
根據信息增益計算公式計算每個特征詞的信息增益,并選擇信息增益大于設定的閾值的特征詞作為具有類別代表性的特征詞,進行下一步操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710700487.8/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





