[發(fā)明專利]短信的審核系統(tǒng)和方法以及構(gòu)建短信審核模型方法有效
| 申請?zhí)枺?/td> | 201710778882.8 | 申請日: | 2017-09-01 |
| 公開(公告)號: | CN107612893B | 公開(公告)日: | 2020-06-02 |
| 發(fā)明(設(shè)計)人: | 孫振江;劉豹;陳鈺;柯錦燦 | 申請(專利權(quán))人: | 北京百悟科技有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L29/08;H04W4/14;H04W12/00;G06F16/955;G06F16/951;G06F40/284 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 任巖 |
| 地址: | 100102 北京市朝*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 短信 審核 系統(tǒng) 方法 以及 構(gòu)建 模型 | ||
1.一種帶URL短信的審核系統(tǒng),包括:
實時抓取模塊,用于通過爬蟲程序?qū)Υ龑徍藥RL短信中的URL進行抓取,得到待審核帶URL短信的URL對應(yīng)的網(wǎng)頁內(nèi)容,并將網(wǎng)頁內(nèi)容進行處理得到網(wǎng)頁內(nèi)容特征關(guān)鍵詞;
審核模型模塊,用于將所述網(wǎng)頁內(nèi)容特征關(guān)鍵詞和通過對所述待審核帶URL短信的短信內(nèi)容進行分詞提取得到的短信內(nèi)容特征關(guān)鍵詞結(jié)合,并輸入審核模型經(jīng)過模型計算得到待審核帶URL短信的審核類型結(jié)果,然后將待審核帶URL短信發(fā)送通道的允許發(fā)送類型和審核類型結(jié)果進行比較,得到審核通過或攔截的結(jié)果;其中,所述審核模型是預(yù)先通過模型訓(xùn)練模塊獲取已審核帶URL短信的短信內(nèi)容特征關(guān)鍵詞、URL對應(yīng)的網(wǎng)頁內(nèi)容特征關(guān)鍵詞和審核標記類型結(jié)果,并利用所述已審核帶URL短信的短信內(nèi)容特征關(guān)鍵詞、URL對應(yīng)的網(wǎng)頁內(nèi)容特征關(guān)鍵詞和審核標記類型結(jié)果通過機器學(xué)習(xí)的方式進行建模而得到的。
2.根據(jù)權(quán)利要求1所述的審核系統(tǒng),其中,在實時抓取模塊之前還包括URL檢測模塊,用于檢測待審核短信是否包含URL,如果不包含則得到無需URL審核的結(jié)果,如果包含URL則提取出URL、短信內(nèi)容及發(fā)送通道允許發(fā)送類型,并將其輸入與之連接的下一模塊。
3.根據(jù)權(quán)利要求2所述的審核系統(tǒng),其中,在URL檢測模塊和實時抓取模塊之間還包括URL內(nèi)容模塊,所述URL內(nèi)容模塊包括URL內(nèi)容庫,所述URL內(nèi)容庫保存有模型訓(xùn)練模塊和實時抓取模塊獲得的所有URL對應(yīng)的網(wǎng)頁內(nèi)容特征關(guān)鍵詞,所述URL內(nèi)容模塊在URL內(nèi)容庫中匹配所述URL檢測模塊提取的URL所對應(yīng)的網(wǎng)頁內(nèi)容特征關(guān)鍵詞,如果URL內(nèi)容庫中包含有所述URL對應(yīng)的網(wǎng)頁內(nèi)容特征關(guān)鍵詞,則將所述網(wǎng)頁內(nèi)容特征關(guān)鍵詞輸入所述審核模型模塊,否則將所述URL輸入實時抓取模塊。
4.根據(jù)權(quán)利要求3所述的審核系統(tǒng),其中,在所述URL檢測模塊和URL內(nèi)容模塊之間還包括糾錯匹配模塊和/或URL黑白名單模塊,所述糾錯匹配模塊和URL黑白名單模塊位置不分先后;其中:
糾錯匹配模塊,接收所述URL檢測模塊提取的短信內(nèi)容,將短信內(nèi)容進行處理,得到短信內(nèi)容特征關(guān)鍵詞,將所述短信內(nèi)容特征關(guān)鍵詞與緩存的糾錯短信進行相似度匹配,若相似度超過一定閾值且發(fā)送通道允許發(fā)送類型一致,則按照糾錯短信的審核結(jié)果進行攔截或放行,否則將短信內(nèi)容特征關(guān)鍵詞輸入與之連接的下一模塊;
URL黑白名單模塊,包括URL黑白名單庫,接收所述URL檢測模塊提取的URL,將所述URL與URL黑白名單庫中的URL地址進行比對,若所述URL包含在URL黑白名單庫中,則根據(jù)比對結(jié)果和發(fā)送通道允許發(fā)送類型得到審核通過或攔截的結(jié)果,否則進入URL內(nèi)容模塊。
5.根據(jù)權(quán)利要求4所述的審核系統(tǒng),其中,還包括后臺管理模塊,用于將URL地址放入URL黑白名單庫,對審核模型模塊的審核結(jié)果進行糾錯,并將糾錯短信保存至糾錯匹配模塊和模型訓(xùn)練模塊;
所述模型訓(xùn)練模塊利用所述糾錯短信定時進行訓(xùn)練,更新所述審核模型。
6.根據(jù)權(quán)利要求4或5中所述的審核系統(tǒng),其中,
所述糾錯匹配模塊用于將短信內(nèi)容進行分詞,并利用NLP自然語言分析技術(shù)和TF-IDF算法提取特征關(guān)鍵詞得到短信內(nèi)容特征關(guān)鍵詞;
所述實時抓取模塊用于將網(wǎng)頁內(nèi)容進行分詞,并利用NLP自然語言分析技術(shù)和TF-IDF算法提取特征關(guān)鍵詞得到網(wǎng)頁內(nèi)容特征關(guān)鍵詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百悟科技有限公司,未經(jīng)北京百悟科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710778882.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





