[發明專利]一種文本相似度進行量化的方法及其系統有效
| 申請號: | 202011002822.5 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112100381B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 劉德建;任佳偉;陳宏展 | 申請(專利權)人: | 福建天晴在線互動科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33 |
| 代理公司: | 福州旭辰知識產權代理事務所(普通合伙) 35233 | 代理人: | 程勇 |
| 地址: | 350212 福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 相似 進行 量化 方法 及其 系統 | ||
1.一種文本相似度進行量化的方法,其特征在于:所述方法適用于鑒別非法賬號,所述方法包括如下步驟:
步驟S1、接收要判斷的兩個文本相似度的請求,以及接收設定的一因子權值表,
步驟S2、讀取兩個文本對應的字符串StrA和StrB,并獲取字符串StrA和StrB的字符串長度,得到Len_A和Len_B,分別對StrA和StrB進行骨架拆分,得到骨架結構Skeleton_A、Skeleton_B;得到零件長度集合PartSizeList_A、PartSizeList_B;得到零件數量PartAmount_A、PartAmount_B;得到每個零件的內容集合PartContentList_A、PartContentList_B;將字符串中連續的同類字符作為一組,分成不同組,將這種分類方法稱為字符串的骨架拆分,將零件的分布稱為文本的骨架結構;
步驟S3、基于零件長度集合PartSizeList_A、PartSizeList_B生成存儲字符數據格式的零件長度集合PartSizeStr_A、PartSizeStr_B;
步驟S4、根據骨架結構Skeleton_A、Skeleton_B,零件數量PartAmount_A、PartAmount_B,每個零件的內容集合PartContentList_A、PartContentList_B,存儲字符數據格式的零件長度集合PartSizeStr_A、PartSizeStr_B來獲取字符串StrA和StrB的各相似度因子,
步驟S5、結合所述因子權值表,對各相似度因子加權求和,得出整體相似度,從而判斷兩個文本是否相似,來對文本中賬號進行聚類分組,將相似的賬號分為一組,然后統計數量異常的組,從而對非法賬號進行監控和封禁。
2.根據權利要求1所述的一種文本相似度進行量化的方法,其特征在于:對StrA和StrB進行骨架拆分的方式一樣,其中對StrA進行骨架拆分的實現方式具體包括如下步驟:步驟21、接收到對字符串StrA進行骨架拆分的請求;
步驟22、申請一塊連續的內存用于存儲字符串格式的骨架結構Skeleton;
步驟23、創建兩個空的列表,一個命名為PartSizeList,是一個存儲數字格式數據的列表,用于按順序存儲每個零件的長度,即每個零件的字符串長度,ParSizeList插入一個大小為0的數字數據成員;另一個命名為PartContentList,是一個存儲字符串格式數據的列表,用于按順序存儲每個零件的內容,PartContentList插入一個空的字符串;
步驟24、新建一個字節tmp用于存儲上一次讀取的字節內容并將字節tmp初始化為空字符串;
步驟25、從StrA中讀取1字節的數據CharA,如果CharA為字符串的結束符則進入步驟29;否則進入步驟26;
步驟26、如果CharA的ASCII碼在0x30-0x39之間則判定為數字類型字符,否則判定為非數字類型字符,進入步驟27;
步驟27、如果此時tmp為空字符串或tmp與CharA的數據類型相同,則將PartSizeList的最后一個數據成員大小加1,使用字符串拼接的方式將CharA拼接到PartContentList的最后一個數據成員的尾部,將CharA賦值給tmp,進入步驟25;如果tmp與CharA的數據類型不同,PartSizeList插入一個大小為1的新數據成員,PartContentList插入一個內容為CharA的新字符數據成員;將CharA賦值給tmp,進入步驟28;
步驟28、如果CharA為數字類型數據,則通過字符串拼接的方式在Skeleton的尾部拼接字符I,否則在Skeleton的尾部拼接字符S,進入步驟25;
步驟29、獲取Skeleton的字符串長度,這個長度即為StrA的零件數量PartAmount;
步驟30、返回StrA的零件數量PartAmount_A、骨架結構Skeleton_A、零件長度集合PartSizeList_A、零件內容集合PartContentList_A。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建天晴在線互動科技有限公司,未經福建天晴在線互動科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011002822.5/1.html,轉載請聲明來源鉆瓜專利網。





