[發明專利]一種基于視覺特征的圖數據檢測方法、系統有效
| 申請號: | 201811533324.6 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109828995B | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | 程學旗;劉財政;劉盛華;沈華偉 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/28;G06K9/62 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視覺 特征 數據 檢測 方法 系統 | ||
本發明涉及一種基于視覺特征的圖數據檢測方法和系統,包括:獲取待分析的圖數據,并統計該圖數據的分布特征;將該分布特征輸入基于視覺特征的分類模型,得到該圖數據中具有相同類別的節點,通過將類別相同的該節點劃分至同一分組,得到多個分組;利用基于視覺的分析模型對該分組進行聚合分析,得到每個分組的聚類特征,根據每個分組的該聚類特征進行模式總結和異常檢測處理,并將每個分組的該聚類特征、模式總結結果和異常檢測結果作為該圖數據的檢測結果。本發明不直接對大圖數據的鄰接矩陣或者拉普拉斯矩陣進行分解操作,處理速度快,效率高,具有更強的及時性。
技術領域
本發明涉及數據挖掘領域,特別涉及一種基于視覺特征的圖數據異常檢測方法、系統。
背景技術
互聯網技術先是將全球“認知時鐘”整齊劃一,交互技術的飛躍式發展(web2.0)更以前所未見的高效能建立起新型的信賴關系,目前社交媒體已超越搜索引擎,成為互聯網第一大流量來源,二者占比分別為46%和40%。圖成為一種常見數據應用到許多科學和工程中,圖可以表示成這樣一種結構,即圖G=(V,E)是一對集合:一組頂點V表示實體和一組邊E表示實體之間的關系或連接。在計算機科學中,網絡包含節點和邊緣;而在社會科學中,相應的術語則是行為者和關系,在本文中這兩個術語具有同等意義。在2018年春節期間,微信和Wechat的合并月活躍賬戶數量超過10億。這意味著微信正式成為中國首個月活躍用戶超過10億的應用,微信在除夕到初五期間共產生了2297億條微信消息,28億條朋友圈;另外有7.68億用戶使用了微信紅包作為新年祝福。阿里巴巴2018年3月31日的財年中,首次公布全球活躍用戶數量,螞蟻金服旗下支付寶和其合作方服務用戶數達到8.7。在大多數情況下,圖數據是由一個或多個生成過程創建的,它們不僅能夠表示系統中的活動,還能夠收集實體的觀察結果。社交網絡是一種重要和典型的大圖數據結構,以微博為例,如圖1所示,微博中的各個用戶構成圖中的點,而用戶之間的關注關系就是圖中的邊,用戶之間的相互關注關系就構成了社交網絡圖,其常見的存儲格式是鄰接矩陣或者拉普拉斯矩陣,圖1對應的鄰接矩陣如圖2所示,當兩個節點之間右邊相連時,對應的位置置為1,如果兩個節點之間無邊相連,對應的位置置為0,(如果是有權圖,對應位置置為權值,無邊相連對應位置置為極大的值,但是其特征幾乎相同)。在這些數據中存在一些團體,比如用戶群體中存在一些對電影愛好的人,他們之間因為電影交流而相互關系,這些人就會構成一個典型的團體,由他們組成的圖數據之間的聯系比較緊密。同時在這些數據中存在一些異常的行為,比如在某電商活動中,是否存在某些商家為了提高自身店鋪在平臺的人氣及信譽,雇傭水軍方式進行虛假交易,破壞了公平競爭秩序及信用。其中虛假交易指不存在、不真實的買賣行為。在互聯網中,一般是指網絡購物平臺中賣家(商家)通過不正當的方式獲取商品銷量、店鋪評分、信用積分等不當利益,從而妨害買家權益的行為。
當前檢測異常行為的方法包括:
第一是對鄰接矩陣或者拉普拉斯矩陣進行非負分解、特征值分解或者奇異值分解,通過分解的特征值等進行異常行為分析;
第二種是基于密度子圖的方法,通過不斷地尋找密度交大的子圖,發現數據的特征與異常;
第三種是基于信號處理的方法,通過分析背景信號特征和噪音信號特征,把噪音信號從背景信號中分離出來,從而分析數據的特征與異常;
此外還有通過人為的去選取數據樣本,在數據樣本上進行分析,以希望發現數據特征和異常。
上述做法除了存在效率低、費時、過度依賴數據分析人員、難以定位特征和異常等問題外,加上某些特征和異常行為具有時效性,使數據特征提取、異常檢測和及時處理變得不可能。發明人在進行基于大圖的數據挖掘時,現有的技術與方法要進行鄰接矩陣或者拉普拉斯矩陣進行特征分解或者奇異值分解,根據分解得到的結果進行數據分析,或者是對密度子圖不斷地歸約,發現滿足特定特征的密度子圖。尤其是在面對大圖數據時,這些方法普遍存在效率低、費時、過度依賴數據分析人員、難以定位特征和異常等不足。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811533324.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





