[發明專利]一種內容規則庫管理系統及其編碼方法有效
| 申請號: | 201611121969.X | 申請日: | 2016-12-08 |
| 公開(公告)號: | CN106599160B | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 胡慶勇 | 申請(專利權)人: | 網帥科技(北京)有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/31;G06F16/35;G06F16/36;G06Q30/02 |
| 代理公司: | 北京世譽鑫誠專利代理事務所(普通合伙) 11368 | 代理人: | 郭官厚 |
| 地址: | 100000 北京市朝陽區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 內容 規則 管理 系統 及其 編碼 方法 | ||
本發明涉及一種內容規則庫字典編碼方法,將內容規則庫的字典設定為20位的字典編碼體系。本發明還公開一種內容規則庫管理系統,包括:內容規則庫可視化管理模塊、URL數據預處理分類模塊、重點應用APP/網站跟蹤模塊、網頁復原模塊、網頁爬蟲模塊、網頁內容分析模塊、內容規則庫。本發明的優點體現在:能夠對用戶訪問移動互聯網的行為日志進行大規模全視角的分析和翻譯,進而形成移動互聯網用戶的全息知識圖譜,為后續的各種內容分析應用進行支撐。
技術領域
本發明涉及數據處理技術領域,具體涉及一種內容規則庫管理系統及其編碼方法。
背景技術
電信運營商通過分光獲得了客戶上網的原始信令數據,經過第一級的DPI識別,輸出了xDR合成的上網日志,但是一般經過第一級解析的數據不夠細,規則不能承載過多,分析維度不靈活,因此需要進行DPI增強解析,對APP識別、網頁分類、關鍵詞分析、知識庫體系等方面進一步增強,以便為后續的各種內容分析應用進行支撐。如何將這些數據異常龐大,紛繁復雜的數據翻譯并標記為含有深度語義內容的信息,現有技術只對需要分析的數據結果提出了要求,但對如何達成需要的數據結果有如下的缺點:
1.只能翻譯相對比較淺度的內容;
2.基本完全依靠人工標記;
3.只能對少量的樣本數據做人工標記;
4.不能快速發現源數據結構的改變;
5.沒有對如何完成這樣的數據結果提供完整的解決方案,模型和算法。
發明內容
本發明的目的是針對現有技術中的不足,提供一種內容規則庫管理系統及其編碼方法,對用戶訪問移動互聯網的行為日志進行大規模全視角的分析和翻譯,進而形成移動互聯網用戶的全息知識圖譜。
為實現上述目的,本發明公開了如下技術方案:
一種內容規則庫字典編碼方法,將內容規則庫的字典設定為20位的字典編碼體系,支持5級標簽體系,一級分類為領域,占3位,二級分類為行業,占4位,三級分類為應用,占5位,四級分類為欄目,占4位,五級分類為搜索內容、元數據或提取內容類型,占4位;
四級分類的第一位為標識符,只能為0或1,其中0代表欄目,1代表行為;五級分類的第一位為0代表搜索,1代表元數據,2代表提取,如果是元數據類型,編碼為13開始,3代表ID,如果是提取類型,則編碼第二位為0代表文本,1代表浮點,2代表日期,3代表ID;
20位為00000000000000000000代表未知的應用。
本發明還公開一種內容規則庫管理系統,應用如上所述的編碼方法,包括:
內容規則庫可視化管理模塊,用于對規則庫的增、刪、查、改,同時提供對各個模塊狀態的監測,并從樣本數據中提取內容規則的可視化操作;
URL數據預處理分類模塊,基于用戶上網日志,將需要深度內容分析的URL提取出來,導入樣本數據庫,清洗為樣本數據,供規則分析人員使用,其中提取的內容包括應用規則,欄目規則,搜索規則,元數據規則,噪音規則和元數據規則;
重點應用APP/網站跟蹤模塊,重點應用指需要深度提取內容元數據的應用,重點應用在內容規則-應用規則中定義,并通過任務管理-重點應用啟動重點應用跟蹤模塊,重點應用跟蹤模塊的輸出,是樣本數據-已知應用中的各種應用URL,供數據分析人員進一步提取各種內容規則使用;
網頁復原模塊,通過將URL深度分析后的內容整理為一些復原規則,提供給網頁復原模塊使用;復原的網頁,提供給網頁內容分析模塊使用;使用元數據規則中定義的網頁復原規則;
網頁爬蟲模塊,基于爬蟲URL生成模塊處理后的數據,從互聯網上爬取相關的網頁內容,供后續的網頁內容分析模塊使用;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網帥科技(北京)有限公司,未經網帥科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611121969.X/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





