[發(fā)明專利]一種信息特征提取方法在審
| 申請?zhí)枺?/td> | 201710531273.2 | 申請日: | 2017-07-03 |
| 公開(公告)號: | CN107330081A | 公開(公告)日: | 2017-11-07 |
| 發(fā)明(設計)人: | 裴煒平;萬里;黃娜 | 申請(專利權)人: | 深圳市比量科技傳媒有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/00 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司44202 | 代理人: | 溫旭 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息 特征 提取 方法 | ||
技術領域
本申請涉及信息技術領域,尤其涉及一種信息特征提取方法。
背景技術
微博作為國內最具人氣、影響范圍最廣、影響力度最大的產品,已經成為人們日常生活的重要社交平臺。不同于其他社交平臺,微博還是重要的新聞消息發(fā)布平臺以及輿論平臺。隨著微博影響力的增大,一批“網絡水軍”在微博平臺上應運而生,威脅著網絡社交平臺的秩序。這類“網絡水軍”往往是指一批被公關公司操控的微博賬號,也稱微博水軍,通過轉發(fā)、評論等手段傳播消息,引導社會輿論,常用于信息推廣、廣告宣傳以及危機公關處理等。
微博水軍跟正常水軍賬號一樣擁有著獨立的賬號,獨立的用戶信息,并且跟正常用戶一樣會在微博平臺上發(fā)布、轉發(fā)、評論消息。隨著新浪微博加強對異常賬號的監(jiān)控,微博水軍為了逃避新浪微博的異常檢測,已經進化得越來越像一個正常用戶了,水軍識別的問題更加艱難。
目前已有的關于微博水軍識別的研究中,對水軍識別的方法主要包括基于規(guī)則和基于機器學習的方法。早期的基于規(guī)則的方法是通過人工找出水軍賬號與正常賬號之間的分界標準,但是這種基于規(guī)則的方法其分界的準則一成不變,不適合用于識別不斷進化的水軍賬號。基于機器學習方法的水軍識別,其效果主要取決于特征的選取以及模型的選擇,其中能獲得較好效果的特征選取主要是從以下兩個方面進行特征選取的:
(1)基于用戶關系圖的特征選取。這種基于用戶關系圖的特征選取需要通過用戶的關注用戶與粉絲用戶,建立起用戶關系圖來衡量目標用戶在微博平臺上的交際情況。
(2)基于文本內容的特性選取。這種基于文本內容的特征選取主要是通過文本信息的重復度、文本情感分析等方面來提取特征。
以往的基于機器學習方法來進行微博水軍識別的特征選取與處理主要有以下幾點不足:
(1)對于基于用戶關系的特征選取,需要建立起微博用戶關系群,從而建立起微博用戶的社交關系。這種特征獲取雖然能夠提高水軍識別的準確率,但是這種需要花費較大的空間存儲用戶并且消耗較多的時間從用戶關系圖中獲得用戶關系特征。
(2)對于文本信息內容的獲取,主要是從文本內容重復度以及文本內容情感分析這兩個方面進行的。對于文本重復度的特征選取需要建立起文本庫或者需要有在線搜索功能,這花費的代價過大;對于文本內容情感分析需要前期的情感學習與標記,同樣需要花費精力在建立詞庫與情感學習上,同時情感分析的準確性不高。
發(fā)明內容
本發(fā)明實施例提供了一種信息特征提取方法,用以解決現有技術中用戶特征提取的準確性不高的問題。
其具體的技術方案如下:
一種信息特征提取方法,所述方法包括:
根據用戶標識,獲取所述用戶標識對應的用戶屬性;
根據所述用戶標識,獲取所述用戶標識對應的微博內容,并根據所述微博內容確定對應的用戶行為;
根據所述用戶屬性以及所述用戶行為,確定所述用戶標識對應的用戶屬性特征;
建立并存儲所述用戶屬性特征與類別標簽之間的對應關系。
可選的,根據用戶標識,獲取所述用戶標識對應的用戶屬性,具體包括:
根據所述用戶標識,至少獲取所述用戶標識對應的用戶等級、用戶認證、粉絲比、簡介信息;
將所述用戶等級、所述用戶認證、粉絲比、簡介信息作為所述用戶屬性。
可選的,根據所述用戶標識,獲取所述用戶標識對應的微博內容,并根據所述微博內容確定對應的用戶行為,包括:
獲取所述微博內容對應的文本制定字符、文本內容長度、微博發(fā)布時間;
將所述文本制定字符、所述文本內容長度、微博發(fā)布時間作為所述用戶行為。
可選的,根據所述用戶屬性以及所述用戶行為,確定所述用戶標識對應的用戶屬性特征,包括:
將獲取到的用戶屬性中的各個參數于所述用戶行為中的各個參數組合,得到組合結果;
將所述組合結果作為所述用戶屬性特征。
可選的,在建立并存儲所述用戶屬性特征與類別標簽之間的對應關系之后,所述方法還包括:
獲取指定用戶標識,根據所述指定用戶標識獲取對應的指定用戶屬性特征;
根據所述用戶屬性特征與類別標簽之間的對應關系,確定所述指定用戶屬性特征對應的類別標簽。
上述技術方案至少具有如下技術效果:
(1)經過采集真實微博數據進行驗證,結果表明所提出的特征選取與處理方法在機器學習分類器上獲得很高的水軍識別的準確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市比量科技傳媒有限公司,未經深圳市比量科技傳媒有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710531273.2/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





