[發(fā)明專利]由計算設備執(zhí)行的數(shù)據(jù)處理方法、裝置、介質(zhì)和計算設備在審
| 申請?zhí)枺?/td> | 201910738504.6 | 申請日: | 2019-08-09 |
| 公開(公告)號: | CN110442803A | 公開(公告)日: | 2019-11-12 |
| 發(fā)明(設計)人: | 尚劉剛;張華;丁長林 | 申請(專利權)人: | 網(wǎng)易傳媒科技(北京)有限公司 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/35;G06K9/00 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 王曉晗 |
| 地址: | 100084 北京市海淀區(qū)西北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算設備 冗余內(nèi)容 文本數(shù)據(jù) 預定規(guī)則 原始數(shù)據(jù) 數(shù)據(jù)處理 計算機可讀存儲介質(zhì) 目標文本數(shù)據(jù) 數(shù)據(jù)處理裝置 表征目標 響應 閱讀 更新 | ||
本發(fā)明的實施方式提供了一種由計算設備執(zhí)行的數(shù)據(jù)處理方法,包括:獲取原始數(shù)據(jù),原始數(shù)據(jù)包括至少一個文本數(shù)據(jù);基于預定規(guī)則處理至少一個文本數(shù)據(jù)中的目標文本數(shù)據(jù),得到第一處理結果;以及響應于第一處理結果表征目標文本數(shù)據(jù)中包括的冗余內(nèi)容,基于冗余內(nèi)容更新預定規(guī)則。本發(fā)明的方法通過使用預定規(guī)則識別冗余內(nèi)容,實現(xiàn)較為準確地識別文章中的冗余內(nèi)容,提高識別效率,為用戶帶來了更好的閱讀體驗。此外,本發(fā)明的實施方式提供了一種數(shù)據(jù)處理裝置、一種計算機可讀存儲介質(zhì)以及一種計算設備。
技術領域
本發(fā)明的實施方式涉及計算機領域,更具體地,本發(fā)明的實施方式涉及一種由計算設備執(zhí)行的數(shù)據(jù)處理方法、數(shù)據(jù)處理裝置、計算機可讀存儲介質(zhì)和計算設備。
背景技術
本部分旨在為權利要求書中陳述的本發(fā)明的實施方式提供背景或上下文。此處的描述不因為包括在本部分中就承認是現(xiàn)有技術。
隨著電子技術的快速發(fā)展,用戶能夠獲取的數(shù)據(jù)資源越來越多。例如,用戶可以通過電子設備瀏覽各種文章。但是,由于為用戶提供的文章通常是由機器抓取產(chǎn)生,因此,文章中不可避免地會出現(xiàn)冗余內(nèi)容,冗余內(nèi)容例如包括與文章內(nèi)容不相關或者重復出現(xiàn)的內(nèi)容。為了提高用戶的閱讀體驗,相關技術通常通過分類技術將文章中的文本內(nèi)容或圖片內(nèi)容分類為冗余內(nèi)容和非冗余內(nèi)容,并刪除冗余內(nèi)容以提高用戶的閱讀體驗,其中,分類技術例如包括機器學習算法或者深度學習算法。
目前,已經(jīng)出現(xiàn)一些識別冗余內(nèi)容的方式。然而,在實現(xiàn)本公開構思的過程中,發(fā)明人發(fā)現(xiàn)相關技術中至少存在如下問題:無論是通過機器學習算法或者深度學習算法進行分類,算法模型需要基于大量的訓練數(shù)據(jù)進行訓練,訓練數(shù)據(jù)的構建需要付出很多的人力和時間,算法模型過于依賴訓練數(shù)據(jù),使得分類效果較差。
針對相關技術中的上述問題,目前還未提出有效的解決方案。
發(fā)明內(nèi)容
現(xiàn)有技術無論是通過機器學習算法或者深度學習算法進行分類,算法模型需要基于大量的訓練數(shù)據(jù)進行訓練,訓練數(shù)據(jù)的構建需要付出很多的人力和時間,算法模型過于依賴訓練數(shù)據(jù),使得分類效果較差。
因此在現(xiàn)有技術中,在通過分類技術將文章中的文本內(nèi)容或圖片內(nèi)容分類為冗余內(nèi)容和非冗余內(nèi)容時,分類效果較差是非常令人煩惱的過程。
為此,非常需要一種改進的由計算設備執(zhí)行的數(shù)據(jù)處理方法,以實現(xiàn)較為準確地識別文章中的冗余內(nèi)容,提高識別效率,為用戶帶來了更好的閱讀體驗。
在本上下文中,本發(fā)明的實施方式期望提供一種由計算設備執(zhí)行的數(shù)據(jù)處理方法、裝置、介質(zhì)和計算設備。
在本發(fā)明實施方式的第一方面中,提供了一種由計算設備執(zhí)行的數(shù)據(jù)處理方法,包括:獲取原始數(shù)據(jù),所述原始數(shù)據(jù)包括至少一個文本數(shù)據(jù),基于預定規(guī)則處理所述至少一個文本數(shù)據(jù)中的目標文本數(shù)據(jù),得到第一處理結果,響應于所述第一處理結果表征所述目標文本數(shù)據(jù)中包括的冗余內(nèi)容,基于所述冗余內(nèi)容更新所述預定規(guī)則。
在本發(fā)明的一個實施例中,所述目標文本數(shù)據(jù)包括第一類文本數(shù)據(jù)和第二類文本數(shù)據(jù)中的至少一個,所述預定規(guī)則包括第一文本規(guī)則和第二文本規(guī)則中的至少一個;所述基于預定規(guī)則處理所述至少一個文本數(shù)據(jù)中的目標文本數(shù)據(jù),包括以下至少一項:基于所述第一文本規(guī)則處理所述第一類文本數(shù)據(jù),以確定所述第一類文本數(shù)據(jù)是否包括所述冗余內(nèi)容,以及基于所述第二文本規(guī)則處理所述第二類文本數(shù)據(jù),以確定所述第二類文本數(shù)據(jù)是否包括所述冗余內(nèi)容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網(wǎng)易傳媒科技(北京)有限公司,未經(jīng)網(wǎng)易傳媒科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910738504.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- IPTV系統(tǒng)冗余數(shù)據(jù)的清除方法
- 一種利用冗余位的字典查詢壓縮方法及裝置
- 一種內(nèi)容中心網(wǎng)絡中傳輸內(nèi)容冗余的消除方法
- 用于資源受限主機的選擇性數(shù)據(jù)冗余消除的系統(tǒng)和方法
- 一種面向次等移動內(nèi)容分發(fā)系統(tǒng)的內(nèi)容推薦裝置及其方法
- 一種結合常規(guī)移動內(nèi)容與次等移動內(nèi)容的推送方法
- 主題內(nèi)容的顯示方法、裝置及終端
- 基于人工智能和大數(shù)據(jù)的數(shù)據(jù)解析方法及區(qū)塊鏈服務平臺
- 基于人工智能和大數(shù)據(jù)的數(shù)據(jù)解析方法及區(qū)塊鏈服務平臺
- 基于人工智能和大數(shù)據(jù)的數(shù)據(jù)解析方法、系統(tǒng)及服務平臺





