[發明專利]一種基于機器學習的侵權網頁判斷方法在審
| 申請號: | 201811223048.3 | 申請日: | 2018-10-19 |
| 公開(公告)號: | CN109408947A | 公開(公告)日: | 2019-03-01 |
| 發明(設計)人: | 林俊 | 申請(專利權)人: | 杭州刀豆網絡科技有限公司 |
| 主分類號: | G06F17/50 | 分類號: | G06F17/50;G06N99/00 |
| 代理公司: | 杭州華知專利事務所(普通合伙) 33235 | 代理人: | 張德寶 |
| 地址: | 310000 浙江省杭州市余杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 分析模型 基于機器 測試集 訓練集 預處理 網頁源數據 分析判斷 人工審核 人工選擇 審核 測試 學習 統一 | ||
本發明公開了一種基于機器學習的侵權網頁判斷方法,包括:網頁源數據預處理生成訓練集和測試集;使用訓練集生成分析模型、測試集測試不同閾值下分析模型的性能指標及人工選擇最優閾值;使用分析模型和最優閾值對網頁進行分析判斷是否為侵權網頁。本發明解決了現有采用人工審核網頁是否侵權成本高昂、沒有統一審核標準導致審核緩慢的技術問題。
技術領域
本發明涉及互聯網應用領域,尤其涉及一種基于機器學習的侵權網頁判斷方法。
背景技術
網頁侵權是網絡侵權的一種類型,也是現代社會知識侵權的一種形式,網頁侵權的本質與知識侵權是相同的,即行為人由于過錯侵害他人的財產和人身權利。目前的互聯網上存在大量網頁,其中有一部分包括了盜版付費資源下載、盜版付費資源宣傳等侵權網頁,以此向用戶收費或者吸引廣告主的資金投入,以此達到贏利為目的。當然,侵權人是否以贏利為目的并不影響侵權的構成。目前對于這部分侵權網頁的判定主要以人工審核的方式進行,人工進行侵權網頁的審核與判定存在有以下缺點:1、人力成本高:包括人工雇傭成本、培訓成本等;2、侵權網頁判定準確率控制困難:通過人工進行審核主要通過個人經驗進行判定,對部分隱藏較深的網頁難以進行判斷;3、時效性差:人工審核的速度較為緩慢,在人工審核過程之中侵權網頁已經對版權方造成利益損失難以挽回。
發明內容
為解決現有采用人工審核網頁是否侵權成本高昂、沒有統一審核標準導致審核緩慢的技術問題,本發明設計了一種基于機器學習的侵權網頁判斷方法。
本發明采用如下技術方案:
一種基于機器學習的侵權網頁判斷方法,包括:網頁源數據預處理生成訓練集和測試集;使用訓練集生成分析模型、測試集測試不同閾值下分析模型的性能指標及人工選擇最優閾值;使用分析模型和最優閾值對網頁進行分析判斷是否為侵權網頁,所述網頁源數據包括網頁標題、網頁文本和網頁侵權標簽,所述網頁源數據生成訓練數據和測試數據,所述訓練數據構建形成詞典,所述詞典使用詞袋模型將訓練數據生成訓練集,所述訓練集包括訓練特征向量和數據標簽,所述詞典使用詞袋模型將測試數據生成測試集,所述測試集包括測試特征向量和數據標簽,所述數據標簽使用“0”或“1”分別表示“非侵權”和“侵權”,所述分析模型通過所述訓練集搭建全連接神經網絡得到,所述分析模型包括輸入層、隱藏層a、隱藏層b和輸出層,所述輸入層內設置存儲單元,所述隱藏層a、隱藏層b和輸出層內均設置計算單元,所述存儲單元存儲輸入數據,所述計算單元表示一次數學計算,所述輸入層的存儲單元數為5000,所述隱藏層a的計算單元數為1000,所述隱藏層b的計算單元數為300,所述輸出層的計算單元數為1,所述隱藏層a設置有激活函數LeakReLU,所述隱藏層b設置有激活函數tanh,所述輸出層設置有激活函數sigmoid。
作為優選,所述網頁源數據生成訓練數據和測試數據步驟如下:(1)隨機打亂網頁源數據;(2)取打亂后網頁源數據的80%生成訓練數據,取打亂后網頁源數據的20%生成測試數據。
作為優選,所述訓練數據構建形成詞典步驟如下:(1)所述訓練數據進行中文分詞處理;(2)取詞語長度≥2、頻率最高的5000個詞語構建形成詞典。
作為優選,所述分析模型輸入訓練集得出差值最小化參數,其步驟如下:(1)所述分析模型中輸入所述訓練特征向量,所述訓練特征向量順序通過輸入層存儲單元、隱藏層a計算單元、激活函數LeakReLU、隱藏層b計算單元、激活函數tanh、輸出層計算單元、激活函數sigmoid輸出0-1之間的計算數值;(2)通過比較計算數值與數據標簽的差值,反向調節所述計算單元的參數,得出基于訓練集的差值最小化參數。
作為優選,所述測試集測試分析模型、人工選擇閾值的步驟如下:(1)人工設置閾值;(2)將測試特征向量輸入所述分析模型中得到測試數值,測試數值與所述差值最小化參數進行差值計算得到計算結果;(3)在所述閾值下,計算結果與所述閾值比較后輸出測試結果;(4)根據測試結果計算閾值下的性能指標,根據性能指標人工選擇最優閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州刀豆網絡科技有限公司,未經杭州刀豆網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811223048.3/2.html,轉載請聲明來源鉆瓜專利網。





