[發明專利]一種輸入配置方法、裝置和電子設備在審
| 申請號: | 201810443413.5 | 申請日: | 2018-05-10 |
| 公開(公告)號: | CN110472223A | 公開(公告)日: | 2019-11-19 |
| 發明(設計)人: | 黃海兵;龐帥;劉羽佳 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F3/023 |
| 代理公司: | 11319 北京潤澤恒知識產權代理有限公司 | 代理人: | 莎日娜<國際申請>=<國際公布>=<進入 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通用語言模型 候選信息 輸入信息 語言模型 匹配 個性化 輸入法 個性化需求 電子設備 全網用戶 輸入配置 輸入效率 記錄 | ||
1.一種輸入配置方法,其特征在于,包括:
輸入法獲取通用語言模型,記錄用戶的輸入信息,其中,所述通用語言模型依據全網用戶的輸入信息訓練得到;
采用所述用戶的輸入信息對所述通用語言模型進行訓練,得到所述用戶對應的個性化語言模型;
依據所述個性化語言模型匹配候選信息。
2.根據權利要求1所述的方法,其特征在于,所述采用所述用戶的歷史輸入信息對所述通用語言模型進行訓練,得到所述用戶對應的個性化語言模型,包括:
篩選出設定時間內所述用戶的輸入信息,對所述篩選的輸入信息進行預處理得到預處理數據;
將所述預處理數據輸入至所述通用語言模型中進行訓練,得到所述用戶對應的個性化語言模型。
3.根據權利要求2所述的方法,其特征在于,所述對所述篩選的輸入信息進行預處理得到預處理數據,包括:
對篩選的輸入信息進行分詞,得到對應的詞片段;
依據映射關系確定各詞片段對應的信息編號,并將所述信息編號確定為預處理數據。
4.根據權利要求2所述的方法,其特征在于,所述將所述預處理數據輸入至所述通用語言模型中進行訓練,得到所述用戶對應的個性化語言模型,包括:
對所述預處理數據進行M次劃分,其中,所述預處理數據每次被劃分為N組;
分別將M次劃分的N組預處理數據輸入至通用語言模型中,對通用語言模型進行M輪訓練得到所述用戶對應的個性化語言模型;
其中,M是小于設定閾值的正整數,N為大于0的整數。
5.根據權利要求4所述的方法,其特征在于,對通用語言模型進行一輪訓練包括:
將一次劃分的N組預處理數據分別輸入至通用語言模型中,對所述通用語言模型進行N次訓練。
6.根據權利要求1所述的方法,其特征在于,還包括:
將所述通用語言模型對應的學習率調整為目標學習率。
7.根據權利要求1所述的方法,其特征在于,所述候選信息包括以下至少一種:輸入序列對應的候選信息、聯想候選信息、智能回復候選信息。
8.一種輸入配置裝置,其特征在于,包括:
獲取模塊,用于輸入法獲取通用語言模型,記錄用戶的輸入信息,其中,所述通用語言模型依據全網用戶的輸入信息訓練得到;
訓練模塊,用于采用所述用戶的輸入信息對所述通用語言模型進行訓練,得到所述用戶對應的個性化語言模型;
匹配模塊,用于依據所述個性化語言模型匹配候選信息。
9.一種可讀存儲介質,其特征在于,當所述存儲介質中的指令由電子設備的處理器執行時,使得電子設備能夠執行如方法權利要求1-7任一所述的輸入配置方法。
10.一種電子設備,其特征在于,包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經配置以由一個或者一個以上處理器執行所述一個或者一個以上程序包含用于進行以下操作的指令:
輸入法獲取通用語言模型,記錄用戶的輸入信息,其中,所述通用語言模型依據全網用戶的輸入信息訓練得到;
采用所述用戶的輸入信息對所述通用語言模型進行訓練,得到所述用戶對應的個性化語言模型;
依據所述個性化語言模型匹配候選信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810443413.5/1.html,轉載請聲明來源鉆瓜專利網。





