[發明專利]文本主題生成方法、裝置及電子設備有效
| 申請號: | 202010039104.9 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111241282B | 公開(公告)日: | 2023-09-08 |
| 發明(設計)人: | 劉志潔;汪琦;馮知凡;張揚;朱勇 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/295 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 戎鄭華 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 主題 生成 方法 裝置 電子設備 | ||
本申請提出一種文本主題生成方法、裝置及電子設備,涉及智能搜索技術領域。其中,該方法包括:對待處理文本進行實體挖掘,獲取待處理文本中包含的各實體;通過實體鏈接,確定知識圖譜中分別與待處理文本中包含的各實體對應的各候選實體,并對各候選實體進行聚類,確定待處理文本對應的核心實體集;基于待處理文本中各關鍵詞分別與預設主題圖譜中各參考主題的匹配度,確定待處理文本中包含的各候選主題;根據核心實體集中每個核心實體與待處理文本間的關聯性,及每個候選主題與待處理文本間的關聯性,從核心實體集及各候選主題中,獲取待處理文本的主題。由此,通過這種文本主題生成方法,挖掘到更多的隱式主題信息,提高了文本主題生成的準確性。
技術領域
本申請涉及計算機技術領域,尤其涉及智能搜索技術領域,提出一種文本主題生成方法、裝置及電子設備。
背景技術
相關技術中,通常通過潛在狄利克雷分布(Latent?Dirichlet?Allocation,簡稱LDA)模型對文本進行分析,確定文本的主題。LDA主題生成模型也稱為三層貝葉斯概率模型,包含詞、主題和文檔三層結構,用來識別大規模文檔集或語料庫中潛藏的主題信息。LDA以詞袋模型為基礎,對文本中詞的分布情況及詞的主題分布情況進行分析,確定文本主題。
但是,這種確定文本主題的方式,較適合長文本數據,對短文本而言,準確性較低。
發明內容
本申請提出的文本主題生成方法、裝置及電子設備,用于解決相關技術中,采用LDA模型確定文本主題的方式,較適合長文本數據,對短文本而言,準確性較低的問題。
本申請一方面實施例提出的文本主題生成方法,包括:對待處理文本進行實體挖掘,獲取待處理文本中包含的各實體;通過實體鏈接,確定知識圖譜中分別與所述待處理文本中包含的各實體對應的各候選實體;根據每個候選實體在所述知識圖譜中與其他實體的相關性,對各候選實體進行聚類,確定所述待處理文本對應的核心實體集;基于所述待處理文本中各關鍵詞分別與預設主題圖譜中各參考主題的匹配度,確定所述待處理文本中包含的各候選主題;根據所述核心實體集中每個核心實體與所述待處理文本間的關聯性,及每個候選主題與所述待處理文本間的關聯性,從所述核心實體集及所述各候選主題中,獲取所述待處理文本的主題。
本申請另一方面實施例提出的文本主題生成裝置,包括:第一獲取模塊,用于對待處理文本進行實體挖掘,獲取待處理文本中包含的各實體;第一確定模塊,用于通過實體鏈接,確定知識圖譜中分別與所述待處理文本中包含的各實體對應的各候選實體;第二確定模塊,用于根據每個候選實體在所述知識圖譜中與其他實體的相關性,對各候選實體進行聚類,確定所述待處理文本對應的核心實體集;第三確定模塊,用于基于所述待處理文本中各關鍵詞分別與預設主題圖譜中各參考主題的匹配度,確定所述待處理文本中包含的各候選主題;第二獲取模塊,用于根據所述核心實體集中每個核心實體與所述待處理文本間的關聯性,及每個候選主題與所述待處理文本間的關聯性,從所述核心實體集及所述各候選主題中,獲取所述待處理文本的主題。
本申請再一方面實施例提出的電子設備,其包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行如前所述的文本主題生成方法。
本申請又一方面實施例提出的存儲有計算機指令的非瞬時計算機可讀存儲介質,其特征在于,所述計算機指令用于使所述計算機執行如前所述的文本主題生成方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010039104.9/2.html,轉載請聲明來源鉆瓜專利網。





