[發明專利]一種文本檢測方法及裝置有效
| 申請號: | 201811247368.2 | 申請日: | 2018-10-25 |
| 公開(公告)號: | CN109271489B | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 楊俊;陳立 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/242;G06F40/295 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 檢測 方法 裝置 | ||
本發明公開了一種文本檢測方法及裝置,涉及文本檢測技術領域,主要目的在提高文本檢測的準確性。本發明主要的技術方案為:獲取待檢測文本;確定目標短語的共現詞;利用所述共現詞在所述待檢測文本中確定待檢測段落;利用機器學習模型檢測所述待檢測段落中是否含有與所述目標短語相匹配的內容;根據匹配結果和所述目標短語對應的檢測規則確定所述待檢測文本是否符合要求。本發明用于對文本的規范性檢測。
技術領域
本發明涉及文本檢測技術領域,尤其涉及一種文本檢測方法及裝置。
背景技術
隨著互聯網的出現和發展,文本文獻在互聯網上的數量發展更加迅猛,文本檢測技術已廣泛地應用于文件檢索、輿情管理等領域,通過檢測文本中是否含有用戶設置的短語或句子等信息來確定該文本內容中是否含有用戶所需的數據內容。
目前,常用的文本檢測多是基于用戶設置的關鍵詞進行匹配,或者是利用自然語言處理技術計算出多個該關鍵詞的近義詞,并利用這些詞進行文本檢測。然而,在很多情況下,尤其是一詞多義的情況下,采用現有的檢測方式由于很難確定用戶設置的關鍵詞的語義,更無法通過簡單的近義詞進行查找與匹配,因此,通過現有檢測方式得到的檢測結果依然存在準確性低、適用范圍窄的問題。
發明內容
鑒于上述問題,本發明提出了一種文本檢測方法及裝置,主要目的在于提高文本檢測的準確性。
為達到上述目的,本發明主要提供如下技術方案:
一方面,本發明提供一種文本檢測方法,具體包括:
獲取待檢測文本;
確定目標短語的共現詞;
利用所述共現詞在所述待檢測文本中確定待檢測段落;
利用機器學習模型檢測所述待檢測段落中是否含有與所述目標短語相匹配的內容;
根據匹配結果和所述目標短語對應的檢測規則確定所述待檢測文本是否符合要求。
優選地,利用所述共現詞在所述待檢測文本中確定待檢測段落包括:
對于所述目標短語的每個共現詞,在所述待檢測文本中查找該共現詞;
每查找到該共現詞,根據該共現詞在待檢測文本中的位置以及預設段落長度確定一個待檢測段落;
若所述目標短語無共現詞,或者,所述目標短語有共現詞但所述待檢測文本中不存在所述共現詞,則將整個待檢測文本確定為待檢測段落。
優選地,所述根據該共現詞在待檢測文本中的位置以及預設段落長度確定一個待檢測段落包括:
在待檢測文本中,在查找到的該共現詞前后各取預設長度的文字,得到一個待檢測段落;
或者,
在待檢測文本中,取長度等于預設長度且包含查找到的該共現詞的段落作為待檢測段落。
優選地,所述利用機器學習模型檢測所述待檢測文本段落中是否含有與所述目標短語相匹配的內容包括:
利用詞向量模型檢測所述待檢測段落中短語的詞向量與所述目標短語的詞向量的相似度是否達到預設相似值;其中,所述詞向量模型是基于神經網絡訓練得到的用于識別同義詞的模型;
若達到,則確定所述待檢測文本中含有與所述目標短語相匹配的內容。
優選地,所述確定目標短語的共現詞包括:
根據目標短語從預置共現詞表中獲取對應的共現詞,所述預置共現詞表是基于與待檢測文本相同技術領域的文本集合統計得到的。
優選地,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811247368.2/2.html,轉載請聲明來源鉆瓜專利網。





