[發明專利]關鍵詞過濾方法及裝置在審
| 申請號: | 201910272751.1 | 申請日: | 2019-04-04 |
| 公開(公告)號: | CN110110069A | 公開(公告)日: | 2019-08-09 |
| 發明(設計)人: | 項東東;吳峰;郭偉 | 申請(專利權)人: | 上海易點時空網絡有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/31 |
| 代理公司: | 北京卓唐知識產權代理有限公司 11541 | 代理人: | 唐海力 |
| 地址: | 200125 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞過濾 過濾 自動機 狀態機 文本 關鍵詞集合 目標關鍵詞 調用 輸出 失敗 | ||
本發明實施例公開一種關鍵詞過濾方法及裝置,其中方法包括如下步驟:基于關鍵詞集合訓練一套自動機,根據自動機指示的有限狀態機對待過濾文本進行關鍵詞過濾,將過濾出的目標關鍵詞輸出至調用端。采用本發明,通過訓練一套自動機,根據有限狀態機確定過濾失敗的節點,基于此節點順序往后過濾,只需對文本進行一遍過濾即可得到想要的結果,可以提高關鍵詞過濾的效率。
技術領域
本發明涉及互聯網環境優化技術領域,尤其涉及一種關鍵詞過濾方法及裝置。
背景技術
各種論壇、社區等各種網絡互動平臺中,每日都會有大量的發帖、回復等文本內容上傳。為了營造一個健康良好的網絡環境,需要準確的過濾掉一些不適合在公眾場合提及的敏感詞。傳統的關鍵詞顧慮通常是采取遍歷關鍵詞,利用正則循環查找要被過濾的文本內容,這種方式要遍歷N編要過濾的文本內容,效率低下。
發明內容
本發明實施例提供一種關鍵詞過濾方法及裝置,通過訓練一套自動機,根據有限狀態機確定過濾失敗的節點,基于此節點順序往后過濾,只需對文本進行一遍過濾即可得到想要的結果,可以提高關鍵詞過濾的效率。
本發明實施例第一方面提供了一種關鍵詞過濾方法,可包括:
基于關鍵詞集合訓練一套自動機;
根據自動機指示的有限狀態機對待過濾文本進行關鍵詞過濾;
將過濾出的目標關鍵詞輸出至調用端。
進一步的,在根據自動機指示的有限狀態機對待過濾文本進行關鍵詞過濾時,上述方法還包括:
將關鍵詞集合中的第一關鍵詞與待過濾文本中的待過濾詞匯進行匹配,第一關鍵詞與待過濾詞匯的第一個詞節點相同,且在第一個詞節點后具有最多的順序分布一致的相同詞節點;
確定第一關鍵詞中與待過濾關鍵詞中第一個不匹配的失敗詞節點;
在關鍵詞集合中確定失敗詞節點指向的第二關鍵詞,第二關鍵詞中存在與失敗詞節點相同的詞節點,且二者基于失敗詞節點具有最多的順序分布一致的相同詞節點。
進一步的,上述方法還包括:
當第二關鍵詞與待過濾詞匯的尾部詞節點相同且分布順序一致時,確定第二關鍵詞為目標關鍵詞。
進一步的,上述方法還包括:
若未匹配到目標關鍵詞,返回文本良好提示信息。
進一步的,上述方法還包括:
將自動機存儲之本地緩存。
本發明實施例第二方面提供了一種關鍵詞過濾裝置,可包括:
自動機訓練模塊,用于基于關鍵詞集合訓練一套自動機;
關鍵詞過濾模塊,用于根據自動機指示的有限狀態機對待過濾文本進行關鍵詞過濾;
結果輸出模塊,用于將過濾出的目標關鍵詞輸出至調用端。
進一步的,上述關鍵詞過濾模塊包括:
文本匹配單元,用于將關鍵詞集合中的第一關鍵詞與待過濾文本中的待過濾詞匯進行匹配,第一關鍵詞與待過濾詞匯的第一個詞節點相同,且在第一個詞節點后具有最多的順序分布一致的相同詞節點;
失敗節點確定單元,用于確定第一關鍵詞中與待過濾關鍵詞中第一個不匹配的失敗詞節點;
節點指向確定單元,用于在關鍵詞集合中確定失敗詞節點指向的第二關鍵詞,第二關鍵詞中存在與失敗詞節點相同的詞節點,且二者基于失敗詞節點具有最多的順序分布一致的相同詞節點。
進一步的,上述裝置還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海易點時空網絡有限公司,未經上海易點時空網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910272751.1/2.html,轉載請聲明來源鉆瓜專利網。





