[發明專利]由計算設備執行的數據處理方法、裝置、介質和計算設備在審
| 申請號: | 201910738504.6 | 申請日: | 2019-08-09 |
| 公開(公告)號: | CN110442803A | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 尚劉剛;張華;丁長林 | 申請(專利權)人: | 網易傳媒科技(北京)有限公司 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/35;G06K9/00 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 王曉晗 |
| 地址: | 100084 北京市海淀區西北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算設備 冗余內容 文本數據 預定規則 原始數據 數據處理 計算機可讀存儲介質 目標文本數據 數據處理裝置 表征目標 響應 閱讀 更新 | ||
1.一種由計算設備執行的數據處理方法,包括:
獲取原始數據,所述原始數據包括至少一個文本數據;
基于預定規則處理所述至少一個文本數據中的目標文本數據,得到第一處理結果;以及
響應于所述第一處理結果表征所述目標文本數據中包括的冗余內容,基于所述冗余內容更新所述預定規則。
2.根據權利要求1所述的方法,其中,所述目標文本數據包括第一類文本數據和第二類文本數據中的至少一個,所述預定規則包括第一文本規則和第二文本規則中的至少一個;所述基于預定規則處理所述至少一個文本數據中的目標文本數據,包括以下至少一項:
基于所述第一文本規則處理所述第一類文本數據,以確定所述第一類文本數據是否包括所述冗余內容;以及
基于所述第二文本規則處理所述第二類文本數據,以確定所述第二類文本數據是否包括所述冗余內容。
3.根據權利要求2所述的方法,其中,當所述目標文本數據包括多個第一類文本數據時,所述基于所述第一文本規則處理所述第一類文本數據,以確定所述第一類文本數據是否包括所述冗余內容,包括以下至少一項:
確定所述多個第一類文本數據中的任意兩個第一類文本數據之間的第一相似度,并且響應于所述第一相似度大于第一預設相似度,將所述兩個第一類文本數據的其中一個作為所述冗余內容;
確定所述多個第一類文本數據中的每個第一類文本數據與預設文本數據之間的第二相似度,將所述第二相似度大于第二預設相似度的第一類文本數據作為所述冗余內容;以及
確定所述多個第一類文本數據中的每個第一類文本數據的至少一個第一關鍵詞是否與預設關鍵詞相同,將至少一個第一關鍵詞與預設關鍵詞相同的第一類文本數據作為所述冗余內容。
4.根據權利要求2所述的方法,其中,當所述目標文本數據包括多個第二類文本數據時,所述基于所述第二文本規則處理所述第二類文本數據,以確定所述第二類文本數據是否包括所述冗余內容,包括:
確定所述多個第二類文本數據中是否存在預設數量的特定第二類文本數據;
響應于存在預設數量的特定第二類文本數據,確定所述預設數量的特定第二類文本數據中的至少一個作為所述冗余內容。
5.根據權利要求3所述的方法,其中,所述基于所述冗余內容更新所述預定規則,包括以下至少一項:
將所述第二相似度大于第二預設相似度的第一類文本數據添加至所述預設文本數據;以及
將至少一個第一關鍵詞與預設關鍵詞相同的第一類文本數據添加至所述預設文本數據。
6.根據權利要求1所述的方法,還包括:
獲取經訓練的第一分類模型;以及
基于所述第一分類模型處理所述至少一個文本數據得到第二處理結果,基于所述第二處理結果確定所述至少一個文本數據中的至少部分文本數據為所述目標文本數據。
7.根據權利要求6所述的方法,其中,所述基于所述第一分類模型處理所述至少一個文本數據得到第二處理結果,基于所述第二處理結果確定所述至少一個文本數據中的至少部分文本數據為所述目標文本數據,包括:
基于所述第一分類模型對所述至少一個文本數據進行分類,得到第一分類結果和第二分類結果,其中,所述第一分類結果包括冗余內容的概率為第一概率,所述第二分類結果包括冗余內容的概率為第二概率,所述第二概率大于所述第一概率;以及
將所述第一分類結果作為所述目標文本數據。
8.一種數據處理裝置,包括:
第一獲取模塊,獲取原始數據,所述原始數據包括至少一個文本數據;
第一處理模塊,基于預定規則處理所述至少一個文本數據中的目標文本數據,得到第一處理結果;以及
更新模塊,響應于所述第一處理結果表征所述目標文本數據中包括的冗余內容,基于所述冗余內容更新所述預定規則。
9.一種計算機可讀存儲介質,其上存儲有可執行指令,所述指令被處理單元執行時使所述處理單元執行根據權利要求1-7中任一項所述的方法。
10.一種計算設備,包括:
處理單元;以及
存儲單元,其上存儲有可執行指令,所述指令被所述處理單元執行時使所述處理單元執行根據權利要求1-7中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易傳媒科技(北京)有限公司,未經網易傳媒科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910738504.6/1.html,轉載請聲明來源鉆瓜專利網。





