[發(fā)明專利]一種基于機(jī)器學(xué)習(xí)的版權(quán)追蹤方法在審
| 申請?zhí)枺?/td> | 201811532787.0 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109635090A | 公開(公告)日: | 2019-04-16 |
| 發(fā)明(設(shè)計(jì))人: | 王澤 | 申請(專利權(quán))人: | 安徽中船璞華科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/951;G06F21/10 |
| 代理公司: | 上海精晟知識產(chǎn)權(quán)代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230000 安徽省合肥市高新區(qū)習(xí)友路333*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 版權(quán)追蹤 搜索結(jié)果 相似度 基于機(jī)器 發(fā)布 錄入 網(wǎng)頁 關(guān)鍵字匹配 互聯(lián)網(wǎng)網(wǎng)站 互聯(lián)網(wǎng)文章 相似度判斷 爬蟲 版權(quán)侵犯 比較算法 方便操作 神經(jīng)網(wǎng)絡(luò) 輸入?yún)?shù) 搜索引擎 算法模型 文本內(nèi)容 文章內(nèi)容 文章主題 語義分析 主題模型 可信度 準(zhǔn)確率 算法 學(xué)習(xí) 網(wǎng)絡(luò) | ||
1.一種基于機(jī)器學(xué)習(xí)的版權(quán)追蹤方法,其特征在于,包括如下步驟:
步驟一:構(gòu)件神經(jīng)網(wǎng)絡(luò)主題模型,利用TF-IDF算法與TextRank算法相結(jié)合,通過對用戶錄入文章的語義分析提取關(guān)鍵詞;
步驟二:將所述關(guān)鍵詞作為搜索引擎的輸入?yún)?shù),獲取搜索結(jié)果集;
步驟三:通過爬蟲算法,獲取所述搜索結(jié)果集中搜索結(jié)果對應(yīng)網(wǎng)頁中的目標(biāo)文章;
步驟四:通過Word2Vec算法模型計(jì)算網(wǎng)頁中的所述目標(biāo)文章與用戶錄入文章內(nèi)容的相似度。
2.根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的版權(quán)追蹤方法,其特征在于,步驟一中具體過程如下:
通過對所述錄入文章的內(nèi)容分詞,根據(jù)詞性獲取錄入文章的候選關(guān)鍵詞;
根據(jù)大規(guī)模語料學(xué)習(xí)得到主題模型,計(jì)算所述錄入文章的主題分布和候選詞分布;
計(jì)算錄入文章的主題和候選關(guān)鍵詞的主題相似度并排序;
按照主題相似度由高到低選取相似度較高的若干個作為關(guān)鍵詞。
3.根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的版權(quán)追蹤方法,其特征在于,步驟三還包括如下過程:
通過訓(xùn)練獲取一個分類器,用于提取目標(biāo)信息;
其中,進(jìn)行目標(biāo)信息提取時,剔除HTML中的廣告和附加信息。
4.根據(jù)權(quán)利要求1所述的一種基于機(jī)器學(xué)習(xí)的版權(quán)追蹤方法,其特征在于,步驟四包括如下過程:
基于keras的深暹羅雙向LSTM網(wǎng)絡(luò),采用字嵌入來捕獲短語/句子相似性;通過計(jì)算兩個詞向量的余弦值計(jì)算對應(yīng)與兩個詞向量對應(yīng)的詞語的相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽中船璞華科技有限公司,未經(jīng)安徽中船璞華科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811532787.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 帶保護(hù)的對等網(wǎng)絡(luò)
- 網(wǎng)絡(luò)多媒體版權(quán)主動追蹤與監(jiān)視系統(tǒng)
- 一種版權(quán)歸屬追蹤的方法及裝置
- 一種數(shù)字聲音的版權(quán)保護(hù)和獲取方法、裝置以及設(shè)備
- 一種基于區(qū)塊鏈的遙感成果版權(quán)管理方法
- 一種基于機(jī)器學(xué)習(xí)的版權(quán)追蹤方法
- 一種芯核版權(quán)匿名認(rèn)證方法
- 一種非授權(quán)分發(fā)的多媒體版權(quán)追蹤的方法
- 一種基于區(qū)塊鏈的電影版權(quán)保護(hù)的方法
- 一種基于區(qū)塊鏈的數(shù)字版權(quán)保護(hù)方法
- 相似度計(jì)算設(shè)備、相似度計(jì)算方法及程序
- 組織相似度圖
- 相似度檢測裝置
- 圖像處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 圖像處理方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 相似度計(jì)算裝置、相似度計(jì)算方法以及相似度計(jì)算程序
- 一種蛋白質(zhì)相似度及相似蛋白質(zhì)的確定方法和系統(tǒng)
- 數(shù)據(jù)處理方法、數(shù)據(jù)處理設(shè)備及計(jì)算機(jī)存儲介質(zhì)
- 相似度確定方法和相似度確定裝置
- 文本相似度最佳閾值自動尋找及優(yōu)化方法及裝置
- 基于加工能力特征模型的機(jī)器組調(diào)度方法
- 人機(jī)匹配裝置、匹配系統(tǒng)、人機(jī)匹配方法以及人機(jī)匹配程序
- 基于SolidWorks、ADAMS環(huán)境的球形機(jī)器人綜合仿真方法
- 用于訓(xùn)練基于機(jī)器學(xué)習(xí)的模型的系統(tǒng)和計(jì)算機(jī)實(shí)施方法
- 一種機(jī)器人作業(yè)過程中的自動控制方法及裝置
- 一種多模態(tài)機(jī)器人智能繪畫方法
- 一種基于機(jī)器人的視點(diǎn)規(guī)劃方法、裝置及測量系統(tǒng)
- 基于落足調(diào)整的四足機(jī)器人動步態(tài)穩(wěn)定控制方法及系統(tǒng)
- 基于碰撞類型劃分的多機(jī)器人路徑規(guī)劃方法和系統(tǒng)
- 一種基于末端誤差檢測信息子集的并聯(lián)機(jī)器人標(biāo)定方法





