[發(fā)明專利]一種黑灰產推廣的關鍵詞查找方法在審
| 申請?zhí)枺?/td> | 201910076690.1 | 申請日: | 2019-01-26 |
| 公開(公告)號: | CN109947913A | 公開(公告)日: | 2019-06-28 |
| 發(fā)明(設計)人: | 董超;蔣希敏;趙玉元 | 申請(專利權)人: | 浙江乾冠信息安全研究院有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/951;G06F16/953;G06F16/9535 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 310015 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 黑灰 關鍵詞查找 數(shù)據(jù)處理技術 搜索關鍵詞 查找 分配權重 擴展性質 實時獲取 搜索引擎 直接提取 未使用 權重 網(wǎng)民 相加 搜索 網(wǎng)頁 文本 合并 挖掘 檢測 幫助 維護 | ||
本發(fā)明提供一種黑灰產推廣的關鍵詞查找方法,涉及數(shù)據(jù)處理技術領域。在建立的key?value關鍵詞權重有序表中提取最大權值且未使用的關鍵詞,通過搜索引擎進行查找,直接提取查找出來的每條結果中有黑灰產推廣的相關和擴展性質信息的關鍵句文本、相關搜索關鍵詞,分配權重賦值后權值相加,得到挖掘的關鍵詞合并到key?value表,得到新的表。本發(fā)明解決了現(xiàn)有技術中找出黑灰產關鍵詞需要人工維護成本較高,且效率低的技術問題。本發(fā)明有益效果為:能實時獲取關于網(wǎng)民搜索黑灰產動態(tài)以及黑灰產推廣最新趨勢。對于檢測黑灰產網(wǎng)頁也有極大幫助。
技術領域
本發(fā)明涉及數(shù)據(jù)處理技術領域,尤其是涉及一種黑灰產推廣的關鍵詞查找方法。
背景技術
PC和移動互聯(lián)網(wǎng)的興起,在給我們提供極大便利的同時也催生了互聯(lián)網(wǎng)黑灰產業(yè)。黑灰產使用惡意SEO優(yōu)化手段侵入高權重網(wǎng)站,添加自定義關鍵字頁面,或用篡改頁面等關鍵字導流等手段,來使搜索引擎收錄。當用戶在正常搜索引擎上網(wǎng)過程中,搜索類似的關鍵字的時候,黑灰產的頁面在搜索出的頁面靠前,以此來達到曝光率。黑灰產關鍵詞為了醒目或吸引人又或易于被搜索引擎收錄,早已不是孤零零單個詞語,而是將整個句子讓搜索引擎收錄且認為這句子是新的關鍵詞,或者對舊的詞語賦予新的含義等等。也即是:舊詞新用,句子造詞。傳統(tǒng)安全檢測技術如網(wǎng)頁劫持,暗鏈,黑鏈等,常規(guī)的方法是使用搜索引擎通過關鍵詞來查詢網(wǎng)站是否有黑灰產植入的頁面,然后再進行檢測。這些關鍵詞的選擇則是常用的如賭博,彩票等直接詞語,而這些詞語都是被黑灰產做關鍵詞防搜索引擎攔截所棄用的。因此,這種關鍵詞往往是無效或低效的。有效的詞語就找出特定的詞語或句子,這往往需要人工維護,且必須實時關注黑灰產趨勢和動向才能保證準確度,但是,這樣做,人力成本較高,且效率低。
發(fā)明內容
為了解決現(xiàn)有技術中存在的問題,本發(fā)明提供一種黑灰產推廣的關鍵詞查找方法,能實時獲取關于網(wǎng)民搜索黑灰產動態(tài)以及黑灰產推廣最新趨勢。
本發(fā)明的技術方案是:一種黑灰產推廣的關鍵詞查找方法,包括以下步驟:步驟一:在建立的具有使用過的關鍵詞(used words)數(shù)組和所有的關鍵詞(all words)字典的key-value關鍵詞權重有序表中,通過相似度比較技術,提取所有的關鍵詞(all words)字典中最大權值且未使用的關鍵詞;步驟二:通過搜索引擎直接搜索該提取的關鍵詞,將獲取的相關網(wǎng)頁內容解碼為Unicode;步驟三:直接提取搜索引擎查找出來的每條結果中有黑灰產推廣的相關和擴展性質信息的關鍵句文本、相關搜索關鍵詞;步驟四:將提取的關鍵句文本、相關搜索關鍵詞按特征分類,分配權重,將關鍵句分詞,分詞繼承分配權重,相同的分詞權重相加得到一組挖掘的關鍵詞;步驟五:將步驟一中所有提取的關鍵詞和挖掘的關鍵詞分別合并到原有key-value關鍵詞權重有序表中的使用過的關鍵詞(used words)數(shù)組和所有的關鍵詞(all words)字典,獲得新的key-value關鍵詞權重有序表;步驟六:重復循環(huán)步驟一至五,直到步驟一中所有的關鍵詞(all words)字典不能獲取新的關鍵詞,所有的關鍵詞(all words)字典即挖掘關鍵詞key-value有序表。
作為優(yōu)選,在建立的key-value關鍵詞權重有序表中,使用過的關鍵詞(usedwords)數(shù)組、所有的關鍵詞(all words)字典權重從高到低排序。
作為優(yōu)選,從使用過的關鍵詞(used words)數(shù)組、所有的關鍵詞(all words)字典中分別取出一個字符串比較包含相似度和子串相似度,循環(huán)迭代使用過的關鍵詞(usedwords)數(shù)組和所有的關鍵詞(all words)字典,獲得所有的關鍵詞((all words)字典中一個最大權值且與使用過的關鍵詞(used words)數(shù)組所有關鍵詞不相似的關鍵詞。
作為優(yōu)選,在搜索引擎返回頁面的每一個搜索結果中查找包含meta信息、title信息、描述、安全提示信息等關鍵句信息,以及搜索引擎提供的相關搜索關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江乾冠信息安全研究院有限公司,未經浙江乾冠信息安全研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910076690.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





