[發明專利]一種數據處理的方法、裝置、可讀存儲介質和電子設備在審
| 申請號: | 202110069495.3 | 申請日: | 2021-01-19 |
| 公開(公告)號: | CN112784045A | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 王澤元;孫銘陽 | 申請(專利權)人: | 北京嘀嘀無限科技發展有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/284;G06F40/289;G06F40/30 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒;楊春曉 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 可讀 存儲 介質 電子設備 | ||
1.一種數據處理的方法,其特征在于,該方法包括:
根據文本信息確定至少一個話題簇,其中,所述話題簇中包括至少一個話題短語;
根據每個所述話題簇中包括的至少一個話題短語,確定所述話題簇對應的至少一個回溯文本信息,其中,所述回溯文本信息為包含所述話題簇中任一個所述話題短語的文本信息;
根據所述至少一個回溯文本信息確定所述話題簇對應的至少一個待摘要文本信息,其中,將所述至少一個回溯文本信息按照包含的話題短語的數量從大到小的順序進行排序,排序在第一設定排名前的所述回溯文本信息為待摘要文本信息;
根據所述至少一個待摘要文本信息生成至少一個摘要,其中,所述摘要用于表達所述話題簇對應的話題。
2.如權利要求1所述的方法,其特征在于,所述根據文本信息確定至少一個話題簇具體包括:
將所述文本信息進行分詞處理,確定至少一個話題短語;
將所述至少一個話題短語進行至少一次聚類,確定至少一個話題簇。
3.如權利要求2所述的方法,其特征在于,將所述文本信息進行分詞處理,確定至少一個話題短語,具體包括:
將所述文本信息進行分詞處理,確定至少一個分詞;
通過N-gram方式將所述至少一個分詞進行組合,確定至少一個候選話題短語;
對所述候選話題短語按照設定統計指標進行打分,確定所述候選話題短語對應的分數值,其中,所述設定統計指標包括鄰接熵、互信息、以及鄰接變化度中的至少一項;
將所述候選話題短語按照所述分數值從大到小的順序進行排序;
將所述在第二設定排名前的所述候選話題短語確定為所述話題短語。
4.如權利要求2所述的方法,其特征在于,所述將所述至少一個話題短語進行至少一次聚類,確定至少一個話題簇,具體包括:
確定所述至少一個話題短語的向量;
采用設定聚類算法對所述話題短語的向量進行聚類,確定至少一個語義簇,其中,所述語義簇中包括至少一個話題短語;
確定所述至少一個語義簇與文本信息集合的共現向量,其中,所述文本信息集合包括全部所述文本信息,所述共現向量用于表示所述語義簇對應的話題短語是否存在于所述文本信息中;
采用設定聚類算法對所述共現向量進行聚類,確定至少一個話題簇。
5.如權利要求1所述的方法,其特征在于,所述設定聚類算法包括具有噪聲的基于密度的聚類算法。
6.如權利要求1所述的方法,其特征在于,所述根據所述至少一個待摘要文本信息生成至少一個摘要,具體包括:
根據文本排序模型獲取所述待摘要文本信息的至少一個摘要。
7.一種數據處理的裝置,其特征在于,該裝置包括:
第一確定單元,用于根據文本信息確定至少一個話題簇,其中,所述話題簇中包括至少一個話題短語;
第二確定單元,用于根據每個所述話題簇中包括的至少一個話題短語,確定所述話題簇對應的至少一個回溯文本信息,其中,所述回溯文本信息為包含所述話題簇中任一個所述話題短語的文本信息;
第三確定單元,用于根據所述至少一個回溯文本信息確定所述話題簇對應的至少一個待摘要文本信息,其中,將所述至少一個回溯文本信息按照包含的話題短語的數量從大到小的順序進行排序,排序在第一設定排名前的所述回溯文本信息為待摘要文本信息;
生成單元,用于根據所述至少一個待摘要文本信息生成至少一個摘要,其中,所述摘要用于表達所述話題簇對應的話題。
8.一種計算機可讀存儲介質,其上存儲計算機程序指令,其特征在于,所述計算機程序指令在被處理器執行時實現如權利要求1-6中任一項所述的方法。
9.一種電子設備,包括存儲器和處理器,其特征在于,所述存儲器用于存儲一條或多條計算機程序指令,其中,所述一條或多條計算機程序指令被所述處理器執行以實現如權利要求1-6任一項所述的方法。
10.一種計算機程序產品,包括計算機程序/指令,其特征在于,該計算機程序/指令被處理器執行時實現權利要求1-6中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發展有限公司,未經北京嘀嘀無限科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110069495.3/1.html,轉載請聲明來源鉆瓜專利網。





