[發(fā)明專利]文本相似度的計算方法及裝置有效
| 申請?zhí)枺?/td> | 202010419437.4 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN111611786B | 公開(公告)日: | 2023-03-21 |
| 發(fā)明(設(shè)計)人: | 鄭丹丹 | 申請(專利權(quán))人: | 創(chuàng)新先進(jìn)技術(shù)有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/30 |
| 代理公司: | 北京博思佳知識產(chǎn)權(quán)代理有限公司 11415 | 代理人: | 周嗣勇 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 相似 計算方法 裝置 | ||
1.一種文本相似度的計算方法,其特征在于,應(yīng)用于計算機(jī)設(shè)備;所述方法包括:
基于預(yù)設(shè)過濾策略,針對原始的黑樣本庫中的部分文本樣本按照對應(yīng)的文本過濾比例進(jìn)行過濾后,基于剩余的文本樣本創(chuàng)建目標(biāo)黑樣本庫;
針對新錄入的文本樣本進(jìn)行分詞處理,得到若干文本分詞;
基于所述預(yù)設(shè)過濾策略,按照所述目標(biāo)黑樣本庫對應(yīng)的文本過濾比例,針對所述若干文本分詞中的部分文本分詞進(jìn)行過濾;
將所述若干文本分詞中剩余的文本分詞依次與所述目標(biāo)黑樣本庫中的文本分詞進(jìn)行匹配;
如果所述剩余的文本分詞中的任一目標(biāo)文本分詞與所述目標(biāo)黑樣本庫中任一文本分詞匹配時,將所述目標(biāo)文本分詞的黑樣本相似度,設(shè)置為大于等于1與所述目標(biāo)黑樣本庫對應(yīng)的文本過濾比例的差值。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于預(yù)設(shè)過濾策略,針對原始的黑樣本庫中的部分文本樣本按照對應(yīng)的文本過濾比例進(jìn)行過濾后,基于剩余的文本樣本創(chuàng)建目標(biāo)黑樣本庫,包括:
針對所述原始的黑樣本庫中的文本樣本依次進(jìn)行分詞處理;
將預(yù)設(shè)的多個保持梯度的文本過濾比例,依次選定為目標(biāo)過濾比例;
基于所述預(yù)設(shè)過濾策略,按照所述目標(biāo)過濾比例,針對所述黑樣本庫進(jìn)行分詞處理得到的文本分詞中的部分文本分詞進(jìn)行過濾;
計算所述黑樣本庫中剩余的文本分詞的離散值,并基于計算出的所述剩余的文本分詞的離散值,創(chuàng)建對應(yīng)于所述目標(biāo)過濾比例的黑樣本庫,以將所述原始的黑樣本庫重構(gòu)為對應(yīng)的文本過濾比例保持梯度的多個黑樣本庫。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,
所述基于所述預(yù)設(shè)過濾策略,按照所述目標(biāo)黑樣本庫對應(yīng)的文本過濾比例,針對所述若干文本分詞中的部分文本分詞進(jìn)行過濾,包括:
將所述多個黑樣本庫按照對應(yīng)的文本過濾比例由低到高的順序,依次選定為所述目標(biāo)黑樣本庫,并基于所述預(yù)設(shè)過濾策略,按照所述目標(biāo)黑樣本庫對應(yīng)的文本過濾比例,針對所述若干文本分詞中的部分文本分詞進(jìn)行過濾。
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述預(yù)設(shè)過濾策略包括以下策略中的任一:
僅丟棄權(quán)重值最高的文本分詞;
僅丟棄權(quán)重值最低的文本分詞;
同時丟棄權(quán)重值最高和最低的文本分詞。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述權(quán)重值為所述文本分詞對應(yīng)于通用樣本庫的IDF值。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述目標(biāo)文本分詞的黑樣本相似度,設(shè)置為大于等于1與所述目標(biāo)黑樣本庫對應(yīng)的文本過濾比例的差值,包括:
將與所述目標(biāo)黑樣本庫對應(yīng)的文本過濾比例轉(zhuǎn)換為目標(biāo)數(shù)值;
計算1與所述目標(biāo)數(shù)值的差值;
將所述目標(biāo)文本分詞的黑樣本相似度,設(shè)置為大于等于所述差值。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
當(dāng)所述新錄入的文本樣本中的任一目標(biāo)文本分詞,與多個黑樣本庫中的文本分詞均不匹配時,將該目標(biāo)文本分詞的黑樣本相似度設(shè)置0。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
當(dāng)所述新錄入的文本樣本中的任一目標(biāo)文本分詞的黑樣本相似度達(dá)到預(yù)設(shè)閾值時,將所述新錄入的文本樣本作為包含不良內(nèi)容的黑樣本進(jìn)行實(shí)時的安全防控。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述文本樣本為社交文本;所述黑樣本庫中的文本樣本為包含不良內(nèi)容的社交文本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于創(chuàng)新先進(jìn)技術(shù)有限公司,未經(jīng)創(chuàng)新先進(jìn)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010419437.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





