[發明專利]用于生成文檔標簽的方法、裝置、電子設備和存儲介質有效
| 申請號: | 201810696336.4 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN108875059B | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 劉呈祥;何伯磊;肖欣延;吳甜 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/205;G06F40/295;G06F40/30 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 李輝;張曦 |
| 地址: | 100094 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 文檔 標簽 方法 裝置 電子設備 存儲 介質 | ||
本公開的實施例提供了一種用于生成文檔標簽的方法、裝置、電子設備和計算機可讀存儲介質。在該方法中,對給定的文檔進行文本分析以得到文檔的文本分析結果;將文本分析結果輸入到標簽生成模型來生成文檔的原始標簽,標簽生成模型是基于訓練文本分析結果和訓練標簽而建立的;以及優化原始標簽以得到文檔的目標標簽。本公開的實施例可以提供高效且準確的文檔標簽生成。
技術領域
本公開的實施例一般地涉及信息處理領域,并且更特別地,涉及一種用于生成文檔標簽的方法、裝置、電子設備和計算機可讀存儲介質。
背景技術
目前,基于用戶興趣點的個性化的資訊推薦是資訊消費領域的新潮流,其中的核心技術包括內容建模和用戶建模。內容建模的任務是給資訊或者文檔給予合適的標簽,或者也稱為關注點或興趣點。
一般而言,文檔標簽是指可以反映出文檔內容或讀者興趣的文字描述。這里的標簽可以是比摘要更加精煉的詞語或文字片段,有助于讀者快速了解全文的內容。文檔標簽對于文檔的分類、推薦、關聯具有重要的作用。然而,傳統的文檔標簽生成方案存在效率不高和效果不佳等問題,在很多應用場景中無法滿足用戶的需求。
發明內容
本公開的實施例涉及一種用于生成文檔標簽的方法、裝置、電子設備和計算機可讀存儲介質。
在本公開的第一方面,提供了一種用于生成文檔標簽的方法。該方法包括:對給定的文檔進行文本分析,以得到文檔的文本分析結果。該方法還包括:將文本分析結果輸入到標簽生成模型,來生成文檔的原始標簽,標簽生成模型是基于訓練文本分析結果和訓練標簽而建立的。該方法進一步包括:優化原始標簽,以得到文檔的目標標簽。
在本公開的第二方面,提供了一種用于生成文檔標簽的裝置。該裝置包括:文本分析模塊,被配置為對給定的文檔進行文本分析,以得到文檔的文本分析結果。該裝置還包括:原始標簽生成模塊,被配置為將文本分析結果輸入到標簽生成模型,來生成文檔的原始標簽,標簽生成模型是基于訓練文本分析結果和訓練標簽而建立的。該裝置進一步包括:標簽優化模塊,被配置為優化原始標簽,以得到文檔的目標標簽。
在本公開的第三方面,提供了一種電子設備。該電子設備包括一個或多個處理器;以及存儲裝置,用于存儲一個或多個程序。當一個或多個程序被一個或多個處理器執行時,使得一個或多個處理器實現第一方面的方法。
在本公開的第四方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現第一方面的方法。
應當理解,發明內容部分中所描述的內容并非旨在限定本公開的實施例的關鍵或重要特征,亦非用于限制本公開的范圍。本公開的其他特征通過以下的描述將變得容易理解。
附圖說明
通過參考附圖閱讀下文的詳細描述,本公開的實施例的上述以及其他目的、特征和優點將變得容易理解。在附圖中,以示例性而非限制性的方式示出了本公開的若干實施例,其中:
圖1示出了本公開的一些實施例能夠在其中實現的示例環境的示意圖;
圖2示出了根據本公開的實施例的標簽生成系統的示意性結構框圖;
圖3示出了根據本公開的實施例的用于生成文檔標簽的方法的示意性流程圖;
圖4示出了根據本公開的實施例的用于生成文檔標簽的裝置的示意性框圖;以及
圖5示出了一種可以被用來實施本公開的實施例的設備的示意性框圖。
貫穿所有附圖,相同或者相似的參考標號被用來表示相同或者相似的組件。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810696336.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:檔案數據管理方法及裝置
- 下一篇:一種網站識別方法及識別系統





