[發明專利]一種文本檢測方法及裝置有效
| 申請號: | 201811247368.2 | 申請日: | 2018-10-25 |
| 公開(公告)號: | CN109271489B | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 楊俊;陳立 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/242;G06F40/295 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 檢測 方法 裝置 | ||
1.一種文本檢測方法,其中,所述方法包括:
獲取待檢測文本;
確定目標短語的共現詞,所述共現詞是指與目標短語搭配使用,或者是在文本中與目標短語共同出現的詞語或短語;
利用所述共現詞在所述待檢測文本中確定待檢測段落;
利用機器學習模型檢測所述待檢測段落中是否含有與所述目標短語相匹配的內容;
根據匹配結果和所述目標短語對應的檢測規則確定所述待檢測文本是否符合要求。
2.根據權利要求1所述的方法,其中,利用所述共現詞在所述待檢測文本中確定待檢測段落包括:
對于所述目標短語的每個共現詞,在所述待檢測文本中查找該共現詞;
每查找到該共現詞,根據該共現詞在待檢測文本中的位置以及預設段落長度確定一個待檢測段落;
若所述目標短語無共現詞,或者,所述目標短語有共現詞但所述待檢測文本中不存在所述共現詞,則將整個待檢測文本確定為待檢測段落。
3.根據權利要求2所述的方法,其中,所述根據該共現詞在待檢測文本中的位置以及預設段落長度確定一個待檢測段落包括:
在待檢測文本中,在查找到的該共現詞前后各取預設長度的文字,得到一個待檢測段落;
或者,
在待檢測文本中,取長度等于預設長度且包含查找到的該共現詞的段落作為待檢測段落。
4.根據權利要求1所述的方法,其中,所述利用機器學習模型檢測所述待檢測文本段落中是否含有與所述目標短語相匹配的內容包括:
利用詞向量模型檢測所述待檢測段落中短語的詞向量與所述目標短語的詞向量的相似度是否達到預設相似值;其中,所述詞向量模型是基于神經網絡訓練得到的用于識別同義詞的模型;
若達到,則確定所述待檢測文本中含有與所述目標短語相匹配的內容。
5.根據權利要求1所述的方法,其中,所述確定目標短語的共現詞包括:
根據目標短語從預置共現詞表中獲取對應的共現詞,所述預置共現詞表是基于與待檢測文本相同技術領域的文本集合統計得到的。
6.根據權利要求1-5中任一項所述的方法,其中,所述方法還包括:
在需要識別所述目標短語對應的命名實體時,調用命名實體識別模型判斷所述待檢測文本中是否存在與所述目標短語對應的命名實體名稱;
如果存在,則所述待檢測文本符合要求;
如果不存在,則所述待檢測文本不符合要求。
7.根據權利要求1-5中任一項所述的方法,其中,所述獲取待檢測文本包括:
將待質檢語音轉換為文本,得到待檢測文本。
8.一種文本檢測裝置,其中,所述裝置包括:
文本獲取單元,用于獲取待檢測文本;
共現詞確定單元,用于確定目標短語的共現詞,所述共現詞是指與目標短語搭配使用,或者是在文本中與目標短語共同出現的詞語或短語;
段落確定單元,用于利用所述共現詞確定單元得到的共現詞在所述文本獲取單元得到的待檢測文本中確定待檢測段落;
內容匹配單元,用于利用機器學習模型檢測所述段落確定單元確定的待檢測段落中是否含有與所述目標短語相匹配的內容;
文本檢測單元,用于根據所述內容匹配單元得到的匹配結果和所述目標短語對應的檢測規則確定所述待檢測文本是否符合要求。
9.根據權利要求8所述的裝置,其中,所述段落確定單元包括:
查找模塊,用于對于所述目標短語的每個共現詞,在所述待檢測文本中查找該共現詞;
第一確定模塊,用于所述查找模塊每查找到該共現詞時,根據該共現詞在待檢測文本中的位置以及預設段落長度確定一個待檢測段落;
第二確定模塊,用于若所述目標短語無共現詞,或者,所述目標短語有共現詞但所述待檢測文本中不存在所述共現詞時,將整個待檢測文本確定為待檢測段落。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811247368.2/1.html,轉載請聲明來源鉆瓜專利網。





