[發明專利]文本過濾方法、裝置、設備和介質有效
| 申請號: | 202010081748.4 | 申請日: | 2020-02-06 |
| 公開(公告)號: | CN113221550B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 連義江;劉文強;賈靜 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06F40/247 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 過濾 方法 裝置 設備 介質 | ||
本申請實施例公開了一種文本過濾方法、裝置、設備和介質,涉及數據處理技術領域,尤其涉及智能搜索技術。具體實現方案為:對目標文本進行切詞,得到候選詞序列;對所述候選詞序列中的詞語進行詞性標注;根據詞性標注結果,過濾所述候選詞序列中的冗余詞,以生成目標詞序列。本申請實施例提供一種文本過濾方法、裝置、設備和介質,以提高文本過濾的準確率。
技術領域
本申請實施例涉及數據處理技術領域,尤其涉及智能搜索技術。具體地,本申請實施例提供了一種文本過濾方法、裝置、設備和介質。
背景技術
一般地,在對文本進行語義分析之前,需要過濾文本中對語義分析沒有貢獻的詞語,也即過濾文本中的冗余詞。
當前,對文本進行冗余過濾的方法主要包括:將冗余詞記錄在詞表中,匹配文本與詞表中的冗余詞,將匹配一致的詞語,從文本中濾除,以實現對文本的冗余過濾。
然而,發明人在實現本發明的過程中發現上述方法的冗余過濾準確率并不高。
發明內容
本申請實施例提供一種文本過濾方法、裝置、設備和介質,以提高文本冗余過濾的準確率。
本申請實施例提供一種文本過濾方法,該方法包括:
對目標文本進行切詞,得到候選詞序列;
對所述候選詞序列中的詞語進行詞性標注;
根據詞性標注結果,過濾所述候選詞序列中的冗余詞,以生成目標詞序列。
本申請實施例通過根據目標文本中候選詞序列的詞性標注結果,過濾所述候選詞序列中的冗余詞,相比根據詞表進行冗余過濾,本申請實施例可以實現對詞表中未記錄詞語的過濾。
又因為相同詞語在不同文本中的成分不同,對文本語義分析的貢獻也不同,所以基于詞表可能造成對非冗余詞的錯誤過濾。而本申請實施例通過詞性標注結果可以區分相同詞語的不同成分,進而基于不同成分對文本語義分析的貢獻,可以實現對詞語的準確過濾。因此,本申請實施例可以提高對目標文本冗余過濾的準確率。
進一步地,所述根據詞性標注結果,過濾所述候選詞序列中的冗余詞,包括:
根據詞性標注結果,從所述候選詞序列中確定候選冗余詞;
根據已知的非冗余詞,對所述候選冗余詞進行過濾,以得到目標冗余詞;
過濾所述候選詞序列中的所述目標冗余詞。
基于該技術特征,本申請實施例通過根據詞性標注結果,從所述候選詞序列中確定候選冗余詞;然后根據已知的非冗余詞,對所述候選冗余詞進行過濾,以得到目標冗余詞,從而實現對目標冗余詞的準確確定。進而基于目標冗余詞對所述候選詞序列進行過濾,以進一步提高目標文本冗余過濾的準確率。
進一步地,所述根據詞性標注結果,從所述候選詞序列中確定候選冗余詞,包括:
將所述候選詞序列中,詞性標注結果為連詞、嘆詞、擬聲詞、介詞、助詞和語氣詞中至少一種的詞語,作為候選冗余詞。
基于該技術特征,本申請實施例通過將所述候選詞序列中,詞性標注結果為對文本語義分析無貢獻的詞語類型的詞語,作為候選冗余詞,從而實現對候選冗余詞的確定。
進一步地,所述根據詞性標注結果,過濾所述候選詞序列中的冗余詞,以生成目標詞序列之后,所述方法還包括:
根據所述目標詞序列,確定所述目標文本的同義文本。
基于該技術特征,本申請實施例根據經過冗余過濾的目標詞序列,確定所述目標文本的同義文本,從而實現在同義文本生成場景的應用。在該應用中,因為沒有目標冗余詞的影響,所以本申請實施例可以確定出更多,且具有實質區別的同義文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010081748.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:廣告搜索方法、裝置、電子設備和介質
- 下一篇:同步信號傳輸方法和設備





