[發明專利]文本相似度的計算方法及裝置有效
| 申請號: | 202010419437.4 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN111611786B | 公開(公告)日: | 2023-03-21 |
| 發明(設計)人: | 鄭丹丹 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/30 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 周嗣勇 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 計算方法 裝置 | ||
本申請提供一種文本相似度的計算方法,包括:通過基于相同的過濾策略,對原始的黑樣本庫中的文本樣本以及新錄入的文本樣本進行分詞處理得到的文本分詞,按照多個保持梯度的文本過濾比例分別進行文本分詞過濾處理,并使用過濾后剩余的文本分詞分別對原始的黑樣本庫中的文本樣本以及新錄入的文本樣本進行重構,然后利用文本分詞的過濾比例來表征新錄入的文本樣本與黑樣本的相似度,通過匹配重構后的黑樣本庫與新錄入的文本樣本中的文本分詞,為新錄入的文本樣本進行分詞得到的文本分詞設置黑樣本相似度。本申請可以顯著提升在計算新錄入的文本樣本與黑樣本庫中的文本樣本的相似度時的計算效率。
技術領域
本申請涉及計算機應用領域,尤其涉及一種文本相似度的計算方法及裝置。
背景技術
社交應用,通常都會面臨內容審核的問題。而一款社交產品,通常可能會有幾千萬甚至幾億的用戶量,每天每時每刻都有巨大的信息量在交互。因此如何基于已審核出的不良歷史內容,快速的完成各種不良內容的實時線上防控,具有十分重要的意義。
在相關技術中,在基于已審核出的不良歷史內容針對各種不良內容進行實時的線上防控時,通常是基于文本相似度來實現的;比如,可以基于編輯距離或者余弦距離等算法,計算社交應用產生的文本樣本與已審核出每一條包含不良內容的黑樣本的文本相似度,然后通過計算出的文本相似度來完成不良內容的實時線上防控。
然而,通過諸如編輯距離或者余弦距離等算法,計算社交文本產生的文本樣本與每一條黑樣本的相似度時,通常都面臨著1:N的輪詢;因此,當黑樣本的數量較多,輪詢所有的黑樣本依次進行相似度的計算,從響應速度上看,無法滿足實時的線上防控的要求。
發明內容
本申請提出一種文本相似度的計算方法,應用于計算機設備,所述計算機設備包括多個黑樣本庫;所述多個黑樣本庫為基于預設過濾策略,針對原始的黑樣本庫中的部分文本樣本進行過濾后,基于剩余的文本樣本創建得到;其中,所述多個黑樣本庫分別對應不同的文本過濾比例;所述方法包括:
針對新錄入的文本樣本進行分詞處理,得到若干文本分詞;
將所述多個黑樣本庫依次選定為目標樣本庫,并基于所述預設過濾策略,按照所述目標樣本庫對應的文本過濾比例,針對所述若干文本分詞中的部分文本分詞進行過濾;
將所述若干文本分詞中剩余的文本分詞依次選定為目標文本分詞,并將所述目標文本分詞與所述目標樣本庫中的文本分詞依次進行匹配;
如果所述目標文本分詞與所述目標樣本庫中任一文本分詞匹配時,基于與所述目標樣本庫對應的文本過濾比例,為所述目標文本分詞設置黑樣本相似度。
本申請還提出一種文本相似度的計算裝置,應用于計算機設備,所述計算機設備包括多個黑樣本庫;所述多個黑樣本庫為基于預設過濾策略,針對原始的黑樣本庫中的部分文本樣本進行過濾后,基于剩余的文本樣本創建得到;其中,所述多個黑樣本庫分別對應不同的文本過濾比例;所述裝置包括:
分詞模塊,針對新錄入的文本樣本進行分詞處理,得到若干文本分詞;
過濾模塊,將所述多個黑樣本庫依次選定為目標樣本庫,并基于所述預設過濾策略,按照所述目標樣本庫對應的文本過濾比例,針對所述若干文本分詞中的部分文本分詞進行過濾;
匹配模塊,將所述若干文本分詞中剩余的文本分詞依次選定為目標文本分詞,并將所述目標文本分詞與所述目標樣本庫中的文本分詞依次進行匹配;
設置模塊,如果所述目標文本分詞與所述目標樣本庫中任一文本分詞匹配時,基于與所述目標樣本庫對應的文本過濾比例,為所述目標文本分詞設置黑樣本相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010419437.4/2.html,轉載請聲明來源鉆瓜專利網。





