[發明專利]一種數據處理的方法、裝置、可讀存儲介質和電子設備在審
| 申請號: | 202110069495.3 | 申請日: | 2021-01-19 |
| 公開(公告)號: | CN112784045A | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 王澤元;孫銘陽 | 申請(專利權)人: | 北京嘀嘀無限科技發展有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/284;G06F40/289;G06F40/30 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒;楊春曉 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 可讀 存儲 介質 電子設備 | ||
本發明實施例公開了一種數據處理的方法、裝置、可讀存儲介質和電子設備。本發明實施例通過文本信息確定至少一個話題簇,其中,所述話題簇中包括至少一個話題短語;根據每個所述話題簇中包括的至少一個話題短語,確定所述話題簇對應的至少一個回溯文本信息;根據所述至少一個回溯文本信息確定所述話題簇對應的至少一個待摘要文本信息;根據所述至少一個待摘要文本信息生成至少一個摘要,其中,所述摘要用于表達所述話題簇對應的話題。通過上述方法,可以通過摘要準確表達話題簇對應的話題,解決了現有技術中通過多個話題詞表達話題會丟失信息以及產生歧義等問題。
技術領域
本發明涉及數據處理領域,具體涉及一種數據處理的方法、裝置、可讀存儲介質和電子設備。
背景技術
近年來,隨著互聯網的深入發展,社交平臺也隨之迅速發展,社交平臺的信息承載量越來越多,每天會涌現大量的熱門話題,話題發現(也可以成為話題挖掘)與話題的熱度追蹤對行業調研以及輿情監管都有十分重要的作用。
現有技術中,通過主題模型實現話題發現,其中,所述主題模型即文本、話題和詞語的三成貝葉斯產生式模型,主要是通過對文本的隱式話題進行建模,得到話題的話題詞(詞語)來表示該話題,由于主題模型使用多個話題詞表示話題,丟失了過多的信息,會出現表述不連貫或者存在較多歧義的問題,難以對話題進行準確的表示。
綜上所述,如何對話題進行準確的表達是目前需要解決的問題。
發明內容
有鑒于此,本發明實施例提供了一種數據處理的方法、裝置、可讀存儲介質和電子設備,通過摘要準確表達了話題簇對應的話題。
第一方面,本發明實施例提供了一種數據處理的方法,該方法包括:
根據文本信息確定至少一個話題簇,其中,所述話題簇中包括至少一個話題短語;
根據每個所述話題簇中包括的至少一個話題短語,確定所述話題簇對應的至少一個回溯文本信息,其中,所述回溯文本信息為包含所述話題簇中任一個所述話題短語的文本信息;
根據所述至少一個回溯文本信息確定所述話題簇對應的至少一個待摘要文本信息,其中,將所述至少一個回溯文本信息按照包含的話題短語的數量從大到小的順序進行排序,排序在第一設定排名前的所述回溯文本信息為待摘要文本信息;
根據所述至少一個待摘要文本信息生成至少一個摘要,其中,所述摘要用于表達所述話題簇對應的話題。
優選地,所述根據文本信息確定至少一個話題簇具體包括:
將所述文本信息進行分詞處理,確定至少一個話題短語;
將所述至少一個話題短語進行至少一次聚類,確定至少一個話題簇。
優選地,將所述文本信息進行分詞處理,確定至少一個話題短語,具體包括:
將所述文本信息進行分詞處理,確定至少一個分詞;
通過N-gram方式將所述至少一個分詞進行組合,確定至少一個候選話題短語;
對所述候選話題短語按照設定統計指標進行打分,確定所述候選話題短語對應的分數值,其中,所述設定統計指標包括鄰接熵、互信息、以及鄰接變化度中的至少一項;
將所述候選話題短語按照所述分數值從大到小的順序進行排序;
將所述在第二設定排名前的所述候選話題短語確定為所述話題短語。
優選地,所述將所述至少一個話題短語進行至少一次聚類,確定至少一個話題簇,具體包括:
確定所述至少一個話題短語的向量;
采用設定聚類算法對所述話題短語的向量進行聚類,確定至少一個語義簇,其中,所述語義簇中包括至少一個話題短語;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發展有限公司,未經北京嘀嘀無限科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110069495.3/2.html,轉載請聲明來源鉆瓜專利網。





