[發明專利]時效性文本的識別方法、裝置、設備及存儲介質有效
| 申請號: | 202010541348.7 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111695353B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 肖鋒;王全想 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/33 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 朱穎;劉芳 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 時效性 文本 識別 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種時效性文本的識別方法、裝置、設備及存儲介質,涉及自然語言處理技術領域。具體實現方案為:先對待識別文本進行處理,得到待識別文本對應的多個有效分詞;并在有效分詞的數量大于或等于第一閾值時,分別計算多個有效分詞中,各有效分詞對應的時效權重;根據各有效分詞對應的時效權重,確定待識別文本的識別結果;識別結果包括待識別文本為時效性文本,或者,待識別文本為非時效性文本,實現了在兼顧時效性的條件下,提高了判斷結果的獲取效率。
技術領域
本申請實施例涉及數據處理技術中的智能搜索技術領域,尤其涉及一種時效性文本的識別方法、裝置、設備及存儲介質。
背景技術
現有技術中,在判斷某一文本是否為時效性文本時,通常是爬蟲、搜索、或者人工等方式確定。但是,采用爬蟲或者搜索的方式,在時間上比較滯后,會失去時效性特征;采用人工的方式,雖然延遲幾乎可以忽略,但需要有文本敏感度的運營人員手工添加,時效性文本的獲取效率較低,并且人工成本太高。
因此,在確定某一文本是否為時效性文本時,如何在兼顧時效性的條件下,提高判斷結果的獲取效率是本領域技術人員亟待解決的問題。
發明內容
本申請實施例提供了一種時效性文本的識別方法、裝置、設備及存儲介質,在確定某一文本是否為時效性文本時,實現在兼顧時效性的條件下,提高判斷結果的獲取效率。
第一方面,本申請實施例提供了一種時效性文本的識別方法,該時效性文本的識別方法可以包括:
對待識別文本進行處理,得到所述待識別文本對應的多個有效分詞。
在所述有效分詞的數量大于或等于第一閾值時,分別計算所述多個有效分詞中,各有效分詞對應的時效權重。
根據各有效分詞對應的時效權重,確定所述待識別文本的識別結果;所述識別結果包括所述待識別文本為時效性文本,或者,所述待識別文本為非時效性文本。
第二方面,本申請實施例還提供了一種時效性文本的識別裝置,該時效性文本的識別裝置可以包括:
處理模塊,用于對待識別文本進行處理,得到所述待識別文本對應的多個有效分詞。
計算模塊,用于在所述有效分詞的數量大于或等于第一閾值時,分別計算所述多個有效分詞中,各有效分詞對應的時效權重。
處理模塊,還用于根據各有效分詞對應的時效權重,確定所述待識別文本的識別結果;所述識別結果包括所述待識別文本為時效性文本,或者,所述待識別文本為非時效性文本。
第三方面,本申請實施例還提供一種電子設備,該電子設備可以包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行上述第一方面所述的時效性文本的識別方法。
第四方面,本申請實施例還提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使所述計算機執行上述第一方面所述的時效性文本的識別方法。
根據本申請的另一方面,提供了一種計算機程序產品,所述程序產品包括:計算機程序,所述計算機程序存儲在可讀存儲介質中,電子設備的至少一個處理器可以從所述可讀存儲介質讀取所述計算機程序,所述至少一個處理器執行所述計算機程序使得電子設備執行上述第一方面所述的時效性文本的識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010541348.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種煤矸石仿石材及其制備方法
- 下一篇:全自動涂膠壓帽生產線





