[發明專利]獲得輸入庫的方法、裝置及電子設備有效
| 申請號: | 201410641573.2 | 申請日: | 2014-11-13 |
| 公開(公告)號: | CN105608083B | 公開(公告)日: | 2019-09-03 |
| 發明(設計)人: | 李亞麗;閆冰;張揚 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F17/27;G06F3/023 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 獲得 輸入 方法 裝置 電子設備 | ||
本發明實施例提供了一種獲得輸入庫的方法、裝置及電子設備。該獲得輸入庫的方法包括:獲得專業詞匯的關聯詞;計算所述關聯詞與語料庫中語料的相似度;在所述語料庫中抽取相似度大于或等于第一相似度閾值的語料,作為近似語料;根據近似語料訓練獲得所述專業詞匯對應的專業詞庫和/或語言模型。該方法在用戶輸入專業詞匯時可以基于該專業詞庫實現一次上屏,在輸入專業長句時可以依據該語言模型進行長句輸入,避免了分段上屏,節省了用戶輸入時間,提高了字符輸入效率,也極大地改善了用戶在輸入專業詞匯尤其是在撰寫專業論文時的輸入體驗。
技術領域
本發明涉及通信技術領域,特別是涉及一種獲得輸入庫的方法、裝置及電子設備。
背景技術
拼音輸入法是目前最常用的漢字輸入方法。隨著計算機技術以及自然語言處理技術的日益發展,拼音輸入也由單字輸入發展到目前的詞句輸入,平均輸入時間在不斷減少,輸入效率不斷提高。
在解決通用輸入方面,輸入法已經基本能滿足絕大多數人的輸入需求,但在遇到需要輸入大量專業詞匯的情況時,例如撰寫專業論文時,由于專業詞匯屬于低頻詞,詞庫中難以收錄,因此很難為用戶提供其需要的候選,此時用戶不得不分段上屏,并且在含有專業詞匯的長句輸入中也需要用戶手動分段上屏來獲得想要的輸入結果。其中,分段上屏是指用戶在輸入長度大于1的詞時,因首屏沒有想要的結果,而不得不分開按一個個字(詞)上屏。這種分段上屏的方式極大的影響了用戶的輸入效率,用戶輸入體驗較差。
發明內容
本發明實施例所要解決的技術問題是提供一種獲得輸入庫的方法,能夠在用戶輸入專業詞匯和/或包含專業詞匯的長句時提高輸入效率,改善用戶的輸入體驗。
相應的,本發明實施例還提供了一種獲得輸入庫的裝置及電子設備,用以保證上述方法的實現及應用。
為了解決上述問題,本發明實施例公開了一種獲得輸入庫的方法,包括:
獲得專業詞匯的關聯詞;
計算所述關聯詞與語料庫中語料的相似度;
在所述語料庫中抽取相似度大于或等于第一相似度閾值的語料,作為近似語料;
根據近似語料訓練獲得所述專業詞匯對應的專業詞庫和/或語言模型。
進一步,所述獲得專業詞匯的關聯詞,包括:
接收關聯信息,所述關聯信息中包含所述專業詞匯的關聯詞。
進一步,所述計算所述關聯詞與語料庫中語料的相似度,包括:
對所述關聯信息進行分詞向量化,獲得第一向量;
計算所述第一向量與第二向量的相似度,其中,所述第二向量為對所述語料庫中的語料進行分詞向量化后獲得的向量。
進一步,在所述根據近似語料訓練獲得所述專業詞匯對應的專業詞庫和/或語言模型之前,還包括:
判斷所述近似語料是否滿足詞庫訓練條件;
若是,再根據所述近似語料訓練獲得所述專業詞匯對應的專業詞庫和/或語言模型;若否,則根據所述近似語料在所述語料庫中重復抽取近似語料,直至所有抽取出的近似語料滿足所述詞庫訓練條件。
進一步,所述根據所述近似語料在所述語料庫中重復抽取近似語料,包括:
計算所述近似語料與所述語料庫中語料的相似度;
在所述語料庫中抽取相似度大于或等于第二相似度閾值的語料。
本發明實施例還公開了一種獲得輸入庫的裝置,包括:
關聯詞獲取單元,用于獲得專業詞匯的關聯詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410641573.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種創建動態索引的方法及裝置
- 下一篇:智能終端的CPU控制方法及控制裝置





