[發(fā)明專利]一種基于機器學習的版權追蹤方法在審
| 申請?zhí)枺?/td> | 201811532787.0 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109635090A | 公開(公告)日: | 2019-04-16 |
| 發(fā)明(設計)人: | 王澤 | 申請(專利權)人: | 安徽中船璞華科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/951;G06F21/10 |
| 代理公司: | 上海精晟知識產權代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230000 安徽省合肥市高新區(qū)習友路333*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 版權追蹤 搜索結果 相似度 基于機器 發(fā)布 錄入 網(wǎng)頁 關鍵字匹配 互聯(lián)網(wǎng)網(wǎng)站 互聯(lián)網(wǎng)文章 相似度判斷 爬蟲 版權侵犯 比較算法 方便操作 神經網(wǎng)絡 輸入?yún)?shù) 搜索引擎 算法模型 文本內容 文章內容 文章主題 語義分析 主題模型 可信度 準確率 算法 學習 網(wǎng)絡 | ||
本發(fā)明公開了一種基于機器學習的版權追蹤方法,涉及網(wǎng)絡文獻版權追蹤技術領域。本發(fā)明包括:構件神經網(wǎng)絡主題模型,對用戶錄入文章的語義分析提取關鍵詞;將關鍵詞作為搜索引擎的輸入?yún)?shù),獲取搜索結果集;通過爬蟲算法,獲取搜索結果集中搜索結果對應網(wǎng)頁中的目標文章;通過Word2Vec算法模型計算網(wǎng)頁中的目標文章與用戶錄入文章內容的相似度。本發(fā)明通過獲取與預發(fā)布文章主題相似度高的關鍵字,并通過關鍵字在互聯(lián)網(wǎng)網(wǎng)站獲取與關鍵字匹配的目標文章,最后通過文本內容比較算法比較預發(fā)布文章與目標文章的相似度判斷預發(fā)布文章是否存在版權侵犯,方便操作、提高互聯(lián)網(wǎng)文章版權追蹤效率并且提高預發(fā)布文章與目標文章的相似度的準確率和可信度。
技術領域
本發(fā)明屬于網(wǎng)絡文獻版權追蹤技術領域,特別是涉及一種基于機器學習的版權追蹤方法。
背景技術
隨著互聯(lián)網(wǎng)在生活中扮演著越來越重要的角色,生活中文章的閱讀也越來越多的人通過互聯(lián)網(wǎng)網(wǎng)站網(wǎng)頁閱讀文章。由于互聯(lián)網(wǎng)的開放性,很多文章十分相似甚至有些文章涉及版權問題。這就導致在互聯(lián)網(wǎng)文章發(fā)布前,需要進行版權侵犯檢索,目的是為了從互聯(lián)網(wǎng)文庫中檢索是否存在與要發(fā)布的文章十分相似的文章用于判斷是否構成版權侵權。
現(xiàn)有技術一般是基于已經下載下來的互聯(lián)網(wǎng)文章的內容進行相似度比較,沒有使用到爬蟲相關算法,步驟繁瑣、效率較低、文章對比基數(shù)小導致可信度低。并且傳統(tǒng)的文本內容比較算法利用的是傳統(tǒng)的算法,將文章分割成句,然后使用字面距離相關的計算公式,計算出句子之間的匹配度,從而得出文章之間的相似度,這樣相似度對比的級別限制在句子級別,但是很多文章雖然在句子級別相似度較低,但是文章本身表達的內容相似度很高,導致相似度的可信度較低,存在較大誤差。
本發(fā)明致力于研發(fā)一種基于機器學習的版權追蹤方法,用于解決現(xiàn)有的互聯(lián)網(wǎng)文章版權追蹤方法效率較低、文章相似度判斷的可信度低的問題。
發(fā)明內容
本發(fā)明的目的在于提供一種基于機器學習的版權追蹤方法,通過獲取與預發(fā)布文章主題相似度高的關鍵字,并通過關鍵字在互聯(lián)網(wǎng)網(wǎng)站獲取與關鍵字匹配的目標文章,最后通過文本內容比較算法比較預發(fā)布文章與目標文章的相似度判斷預發(fā)布文章是否存在版權侵犯,解決了現(xiàn)有互聯(lián)網(wǎng)文章版權追蹤方法效率較低、文章相似度判斷的可信度低的問題。
為解決上述技術問題,本發(fā)明是通過以下技術方案實現(xiàn)的:
本發(fā)明為一種基于機器學習的版權追蹤方法,包括如下步驟:
步驟一:構件神經網(wǎng)絡主題模型,利用TF-IDF算法與TextRank算法相結合,通過對用戶錄入文章的語義分析提取關鍵詞;
步驟二:將所述關鍵詞作為搜索引擎的輸入?yún)?shù),獲取搜索結果集;
步驟三:通過爬蟲算法,獲取所述搜索結果集中搜索結果對應網(wǎng)頁中的目標文章;
步驟四:通過Word2Vec算法模型計算網(wǎng)頁中的所述目標文章與用戶錄入文章內容的相似度;根據(jù)用戶錄入文章與目標文章的相似度判斷用戶錄入文章是否對目標文章構成版權侵犯。
優(yōu)選地,步驟一中具體過程如下:
通過對所述錄入文章的內容分詞,根據(jù)詞性獲取錄入文章的候選關鍵詞;
根據(jù)大規(guī)模語料學習得到主題模型,計算所述錄入文章的主題分布和候選詞分布;
計算錄入文章的主題和候選關鍵詞的主題相似度并排序;
按照主題相似度由高到低選取相似度較高的若干個作為關鍵詞,一般選取10個,具體的數(shù)目要根據(jù)候選關鍵字的個數(shù)確定。
優(yōu)選地,步驟三還包括如下過程:
通過訓練獲取一個分類器,用于提取目標信息,例如:正文內容、發(fā)布時間;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽中船璞華科技有限公司,未經安徽中船璞華科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811532787.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 基于加工能力特征模型的機器組調度方法
- 人機匹配裝置、匹配系統(tǒng)、人機匹配方法以及人機匹配程序
- 基于SolidWorks、ADAMS環(huán)境的球形機器人綜合仿真方法
- 用于訓練基于機器學習的模型的系統(tǒng)和計算機實施方法
- 一種機器人作業(yè)過程中的自動控制方法及裝置
- 一種多模態(tài)機器人智能繪畫方法
- 一種基于機器人的視點規(guī)劃方法、裝置及測量系統(tǒng)
- 基于落足調整的四足機器人動步態(tài)穩(wěn)定控制方法及系統(tǒng)
- 基于碰撞類型劃分的多機器人路徑規(guī)劃方法和系統(tǒng)
- 一種基于末端誤差檢測信息子集的并聯(lián)機器人標定方法





