[發(fā)明專利]一種文本相似度進(jìn)行量化的方法及其系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202011002822.5 | 申請(qǐng)日: | 2020-09-22 |
| 公開(公告)號(hào): | CN112100381B | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 劉德建;任佳偉;陳宏展 | 申請(qǐng)(專利權(quán))人: | 福建天晴在線互動(dòng)科技有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/33 |
| 代理公司: | 福州旭辰知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35233 | 代理人: | 程勇 |
| 地址: | 350212 福*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文本 相似 進(jìn)行 量化 方法 及其 系統(tǒng) | ||
本發(fā)明提供了一種文本相似度進(jìn)行量化的方法,所述方法為:步驟S1、接收要判斷的兩個(gè)文本相似度的請(qǐng)求,以及接收設(shè)定的一因子權(quán)值表,步驟S2、讀取兩個(gè)文本對(duì)應(yīng)的字符串StrA和StrB,并獲取字符串StrA和StrB的字符串長(zhǎng)度,得到Len_A和Len_B,分別對(duì)StrA和StrB進(jìn)行骨架拆分;步驟S3、根據(jù)骨架拆分的零件長(zhǎng)度集合PartSizeList_A、PartSizeList_B生成存儲(chǔ)字符數(shù)據(jù)格式的零件長(zhǎng)度集合PartSizeStr_A、PartSizeStr_B;步驟S4、根據(jù)骨架拆分得到的各計(jì)算參數(shù)計(jì)算相似度因子,步驟S5、結(jié)合所述因子權(quán)值表,對(duì)各相似度因子加權(quán)求和,得出整體相似度,從而判斷兩個(gè)文本是否相似;從而判斷出非法賬號(hào),從而對(duì)非法賬號(hào)進(jìn)行監(jiān)控和封禁。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)系統(tǒng)通信技術(shù)領(lǐng)域、黑產(chǎn)檢測(cè)領(lǐng)域,提供一種適用于鑒別非法賬號(hào)的文本相似度進(jìn)行量化的方法及一套經(jīng)過大量數(shù)據(jù)測(cè)試調(diào)優(yōu)后的參數(shù)集合。此方法尤其適合作為對(duì)賬號(hào)集合進(jìn)行分組并從中篩選出非法賬號(hào)的業(yè)務(wù)場(chǎng)景中的相似度比較和相似度量化方式,使用者可以以此方法為基礎(chǔ),統(tǒng)計(jì)賬號(hào)集合中每一組相似賬號(hào)的數(shù)量,從而篩選出非法賬號(hào)。
背景技術(shù)
非法賬號(hào)一詞即為:描述游戲工作室刷金賬號(hào)、網(wǎng)絡(luò)論壇水軍賬號(hào)等非法用途的賬號(hào),黑產(chǎn)團(tuán)隊(duì)為了方便賬號(hào)管理往往批量注冊(cè)具有連號(hào)特征的非法賬號(hào)集合,如feifa1、feifa2、feifa3…feifa1000這樣的由特定格式生成的賬號(hào)集合。
目前有許多從事網(wǎng)絡(luò)黑色產(chǎn)業(yè)的非法團(tuán)隊(duì),通過非法利用網(wǎng)絡(luò)程序內(nèi)部漏洞或使用不受許可的第三方非法軟件,借助人力操控或軟件操控等途徑批量注冊(cè)、登陸、操控賬號(hào),實(shí)現(xiàn)非法牟利、引導(dǎo)輿論、惡意攻擊網(wǎng)絡(luò)服務(wù)提供方等目的,嚴(yán)重侵害網(wǎng)絡(luò)服務(wù)提供方的合法利益;另外黑產(chǎn)團(tuán)隊(duì)占用網(wǎng)絡(luò)服務(wù)提供方的網(wǎng)絡(luò)帶寬、服務(wù)器資源,也會(huì)導(dǎo)致合法用戶無法正常享受網(wǎng)絡(luò)服務(wù)方提供的網(wǎng)絡(luò)服務(wù)。對(duì)于網(wǎng)絡(luò)服務(wù)提供商,面對(duì)上述威脅,需要通過封禁非法賬號(hào)的方式對(duì)抗非法攻擊,例如游戲公司需要封禁游戲工作室的打金賬號(hào),網(wǎng)絡(luò)論壇需要封禁發(fā)布廣告或反動(dòng)、色情信息的賬號(hào)等。由于非法團(tuán)隊(duì)的賬號(hào)往往相似度非常高(例如以feifazhanghao1、feifazhanghao2、feifahzanghao3這樣的連號(hào)形式存在),因此將該些賬號(hào)保存在文本中可以通過相似度分析的方法批量分析賬號(hào),比較賬號(hào)之間的相似度,從而對(duì)賬號(hào)進(jìn)行分組并根據(jù)相似數(shù)據(jù)出現(xiàn)的頻率從中篩選出工作室的非法賬號(hào)。
本專利引用了兩種現(xiàn)有的文本相似度量化技術(shù)作為輔助量化手段。
編輯距離,也叫萊文斯坦距離(Levenshtein),是針對(duì)二個(gè)字符串(例如英文字)的差異程度的量化測(cè)量,測(cè)量方式是看至少需要多少次的處理才能將一個(gè)字符串變成另一個(gè)字符串(刪除、加入、取代字符串中的任何一個(gè)字元稱為一次處理)。參考文章:https://zhuanlan.zhihu.com/p/91667128。
Jaro-winkler相似度算法,是基于Jaro相似度算法的一種延伸。Jaro距離算法(jarodistance)是基于編輯距離拓展出來的一種文本相似度量化算法,算法內(nèi)容如下,給定兩個(gè)文本串,它們的Jaro相似度定義為:其中m是匹配目數(shù)(保證順序相同),|s|是字符串長(zhǎng)度,t是換位數(shù)目。如果兩個(gè)分別來自S1和S2的字符相距不超過則認(rèn)定它們是匹配的。而這些相互匹配的字符則決定了換位的數(shù)目t,簡(jiǎn)單來說就是不同順序的匹配字符的數(shù)目的一半即為換位的數(shù)目t,舉例來說,MARTHA與MARHTA的字符都是匹配的,但是這些匹配的字符中,T和H要換位才能把MARTHA變?yōu)镸ARHTA,那么T和H就是不同的順序的匹配字符,t=2/2=1;那么這兩個(gè)字符串的Jaro相似度即為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建天晴在線互動(dòng)科技有限公司,未經(jīng)福建天晴在線互動(dòng)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011002822.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 請(qǐng)求沒有進(jìn)行IMS注冊(cè)的用戶進(jìn)行注冊(cè)的方法
- 對(duì)要進(jìn)行紋理操作的像素進(jìn)行分組
- 對(duì)餐盤進(jìn)行溫度調(diào)節(jié)和進(jìn)行分配的獨(dú)立小車
- 對(duì)圖像進(jìn)行編碼
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 蛋糕(甜蜜進(jìn)行時(shí))
- 對(duì)定位輔助數(shù)據(jù)進(jìn)行分級(jí)和分組以進(jìn)行廣播
- 對(duì)物體進(jìn)行分離和定向以進(jìn)行供料
- 對(duì)工件進(jìn)行評(píng)價(jià)以進(jìn)行加工的方法





