[發明專利]一種數據處理方法、裝置、設備和介質在審
| 申請號: | 201810637434.0 | 申請日: | 2018-06-20 |
| 公開(公告)號: | CN108874175A | 公開(公告)日: | 2018-11-23 |
| 發明(設計)人: | 孟可豐;賀亮;馬鳴 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞語 詞庫 上屏 數據處理 時間段 裝置設備 衰減 信息檢索技術 干擾用戶 權重 計算機 更新 管理 | ||
本發明實施例公開了一種數據處理方法、裝置設備和介質,涉及計算機和信息檢索技術領域。該方法包括:根據詞庫中每個詞語在所述詞語的上屏時間段內的詞庫上屏次數,確定所述詞語的衰減比例,其中所述上屏時間段是所述詞語的最近至少一次的上屏時間與所述詞庫的最近一次的上屏時間之間的時間段;根據所述詞語的衰減比例對所述詞庫中各詞語的權重進行更新。本發明實施例提供一種數據處理方法、裝置設備和介質,實現了對詞庫中老舊的詞語的管理,解決老舊詞語干擾用戶正常輸入的問題。
技術領域
本發明實施例涉及計算機和信息檢索技術領域,尤其涉及一種數據處理方法、裝置設備和介質。
背景技術
隨著數字時代的興起,人們越來越習慣將資料、信息及文檔電子化,日常交流也更傾向于通過電子郵件和即時通信軟件進行。因此在電子時代,作為用戶在電子設備上“書寫”工具的輸入法,也在人們的學習、工作及生活中占據著愈加重要的地位。
為了提高用戶的輸入效率,當今主流的輸入法都會以自學習的方式將用戶曾經輸入的詞(通常稱為自造詞)記錄下來,以便以后的使用。這項技術讓用戶在輸入自造詞時不用再逐字的去拼湊。并且將權重高的自造詞以前置的方式放在候選詞序列的前列,以方便用戶選擇,從而大大降低了用戶的輸入成本。其中自造詞的權重由自造詞的使用詞頻決定。
然而,伴隨用戶對輸入法使用時長的增長,越來越多的詞開始被自造出來并且堆積在候選詞的前列。一些老舊的自造詞排在了用戶真正期望輸入的詞的前面,從而干擾用戶正常輸入,降低用戶輸入效率。
發明內容
本發明實施例提供一種數據處理方法、裝置設備和介質,以實現對詞庫中老舊的詞語的管理,解決老舊詞語干擾用戶正常輸入的問題。
第一方面,本發明實施例提供了一種數據處理方法,該方法包括:
根據詞庫中每個詞語在所述詞語的上屏時間段內的詞庫上屏次數,確定所述詞語的衰減比例,其中所述上屏時間段是所述詞語的最近至少一次的上屏時間與所述詞庫的最近一次的上屏時間之間的時間段;
根據所述詞語的衰減比例對所述詞庫中各詞語的權重進行更新。
第二方面,本發明實施例還提供了一種數據處理裝置,該裝置包括:
衰減比例確定模塊,用于根據詞庫中每個詞語在所述詞語的上屏時間段內的詞庫上屏次數確定所述詞語的衰減比例,其中所述上屏時間段是所述詞語的最近至少一次的上屏時間與所述詞庫的最近一次的上屏時間之間的時間段;
權重更新模塊,用于根據所述詞語的衰減比例對所述詞庫中各詞語的權重進行更新。
第三方面,本發明實施例還提供了一種設備,所述設備包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如本發明實施例中任一所述的數據處理方法。
第四方面,本發明實施例還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如本發明實施例中任一所述的數據處理方法。
本發明實施例通過根據詞語最近上屏時間與所述詞庫最近一次的上屏時間之間的時間段內,所述詞庫中詞語上屏的數量,對詞庫中詞語的權重進行衰減。避免老舊自造詞排列在候選詞序列的前列,影響用戶輸入。
同時,計算一個時間段內所述詞庫中詞語上屏的數量的計算量相比,計算詞語最近上屏時間與當前時間之間的時間長度的計算量小。又因為詞庫中存儲有大量詞語,所以基于時間段內所述詞庫中詞語上屏的數量對詞庫中詞語的權重進行衰減可以降低系統的運算量。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810637434.0/2.html,轉載請聲明來源鉆瓜專利網。





