[發明專利]一種詞處理的方法及相關裝置在審
| 申請號: | 201911330907.3 | 申請日: | 2019-12-20 |
| 公開(公告)號: | CN113010665A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 王丹;崔欣 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/338;G06F3/023 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 柳欣 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 處理 方法 相關 裝置 | ||
本申請公開了一種詞處理的方法及相關裝置,該方法包括:獲得目標用戶安裝的目標應用程序;預先挖掘目標應用程序對應的用戶語料和/或自定義語料獲得目標應用程序的特征詞,基于目標應用程序的特征詞更新目標用戶的輸入法詞庫。由此可見,當目標用戶安裝目標應用程序,將預先挖掘得到的目標應用程序的特征詞推薦給目標用戶,以便在用戶希望通過輸入表達該目標應用程序的特征詞時,該目標應用程序的特征詞能夠對應用戶的輸入數據直接匹配展示。即,該方式在后續用戶輸入時明顯降低用戶的輸入代價,較大程度上節省輸入時間,大大提升用戶的輸入體驗。
技術領域
本申請涉及輸入法技術領域,尤其涉及一種詞處理的方法及相關裝置。
背景技術
隨著信息技術的快速發展,各個輸入場景所涉及的詞條存在較大的差異性,且新詞條不斷涌現。一般地,若用戶希望輸入某個輸入場景下相對高頻的詞條,或者最近時間段內相對高頻的新詞條,在用戶輸入后需要將用戶的輸入數據與用戶的輸入法詞庫中詞條進行匹配展示相關匹配詞條。
但是,發明人經過研究發現,由于用戶的輸入法詞庫僅僅包括在全體用戶范圍上相對高頻的詞條,即,一些局部用戶范圍上相對高頻的詞條和新詞條往往不包括在用戶的輸入法詞庫中;因此,用戶的輸入法詞庫無法提供某個輸入場景下相對高頻的詞條或最近時間段內相對高頻的新詞條,直接匹配上述用戶的輸入數據,進而無法直接展示用戶所需詞條。此情況下,只能在用戶的輸入數據對應的已有候選詞條基礎上,用戶主動對已有候選詞條進行多次分段篩選,以得到用戶所需詞條,該方式使得用戶付出較大的輸入代價、耗費較多的輸入時間,從而大大降低用戶的輸入體驗。
發明內容
本申請所要解決的技術問題是,提供一種詞處理的方法及相關裝置,以便在后續用戶輸入時明顯降低用戶的輸入代價,較大程度上節省輸入時間,大大提升用戶的輸入體驗。
第一方面,本申請實施例提供了一種詞處理的方法,該方法包括:
獲得目標用戶安裝的目標應用程序;
基于所述目標應用程序的特征詞更新所述目標用戶的輸入法詞庫;所述目標應用程序的特征詞是基于所述目標應用程序對應的用戶語料和/或自定義語料預先挖掘獲得的。
可選的,所述目標應用程序的特征詞的獲得步驟包括:
針對所述目標應用程序,收集所述用戶語料和/或所述自定義語料;
基于預設挖掘策略挖掘所述用戶語料和/或所述自定義語料,獲得所述目標應用程序的特征詞。
可選的,所述基于預設挖掘策略挖掘所述用戶語料和/或所述自定義語料,獲得所述目標應用程序的特征詞,包括:
統計所述用戶語料和/或所述自定義語料中各個分詞的詞頻-逆文件頻率;
基于各個所述分詞的詞頻-逆文件頻率和預設詞頻-逆文件頻率,篩選獲得所述目標應用程序的特征詞。
可選的,所述基于各個所述分詞的詞頻-逆文件頻率和預設詞頻-逆文件頻率,篩選獲得所述目標應用程序的特征詞,包括:
選取所述詞頻-逆文件頻率大于等于所述預設詞頻-逆文件頻率的分詞形成目標分詞集合;
基于預設標記詞表過濾所述目標分詞集合,獲得所述目標應用程序的特征詞。
可選的,在所述獲得目標用戶安裝的目標應用程序之后,所述基于所述目標應用程序的特征詞更新所述目標用戶的輸入法詞庫之前,還包括:
獲得所述目標應用程序的使用情況;
對應地,所述基于所述目標應用程序的特征詞更新所述目標用戶的輸入法詞庫,具體為:
若所述目標應用程序的使用情況滿足預設條件,基于所述目標應用程序的特征詞更新所述目標用戶的輸入法詞庫;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911330907.3/2.html,轉載請聲明來源鉆瓜專利網。





