[發明專利]輸入流識別方法、裝置與計算機可讀存儲介質有效
| 申請號: | 201710372798.6 | 申請日: | 2017-05-24 |
| 公開(公告)號: | CN108959238B | 公開(公告)日: | 2021-12-31 |
| 發明(設計)人: | 江浩 | 申請(專利權)人: | 藝龍網信息技術(北京)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 闞梓瑄;王衛忠 |
| 地址: | 100015 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輸入 識別 方法 裝置 計算機 可讀 存儲 介質 | ||
本公開提供一種輸入流識別方法、裝置與計算機可讀存儲介質。輸入流識別方法包括:獲取輸入流,生成拼音序列;通過評分函數基于動態規劃獲得所述拼音序列的多個拼音切分方案的評分;根據評分最優的拼音切分方案輸出輸入流識別結果。本公開提供的輸入流識別方法可以提高輸入流識別的效率與準確率。
技術領域
本公開涉及數據識別技術領域,具體而言,涉及一種基于動態規劃對拼音序列進行切分的輸入流識別方法、裝置與計算機可讀存儲介質。
背景技術
隨著互聯網技術的發展,漢語拼音輸入法在搜索引擎等計算機領域得到了廣泛的應用。在現有技術中,通過獲取用戶輸入的漢語拼音,搜索引擎可以分析用戶的輸入意向并給用戶以關鍵字智能提示,從而提高輸入效率,提升用戶的輸入體驗。
現有的輸入流識別方法往往通過將用戶輸入內容中的漢語拼音與標準拼音比對等手段識別輸入流中的漢語拼音,由于標準拼音數量有限,當用戶輸入不標準的拼音時,現有技術如果無法在標準拼音庫中查找到對應拼音,則無法快速準確的理解用戶的輸入意圖,提高了輸入流識別對用戶輸入的要求。
因此,需要一種對用戶輸入的標準或不標準拼音字符進行高效準確識別的輸入流識別方法。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開的目的在于提供一種輸入流識別方法、裝置與計算機可讀存儲介質,用于至少在一定程度上克服由于相關技術的限制和缺陷而導致的一個或多個問題。
根據本公開實施例的第一方面,提供一種輸入流識別方法,包括:
獲取輸入流,生成拼音序列;
通過評分函數基于動態規劃獲得所述拼音序列的多個拼音切分方案的評分;
根據評分最優的拼音切分方案輸出輸入流識別結果。
在本公開的一種示例性實施例中,還包括:
構建拼音規則數據庫,所述拼音規則數據庫包括合法的拼音音節、阿拉伯數字以及不需要轉義的特殊字符。
在本公開的一種示例性實施例中,所述評分函數包括第一評分函數,所述第一評分函數根據所述拼音規則數據庫對拼音字符串是否合法進行判斷并輸出第一評分,所述第一評分函數的定義為:
當所述拼音字符串為合法音節時,所述拼音字符串的第一評分等于0;
當所述拼音字符串正向匹配合法音節時,所述拼音字符串的第一評分等于1;
當所述拼音字符串不能正向匹配合法音節時,所述拼音字符串的第一評分等于2;
其中,所述拼音字符串包括一或多個拼音字母。
在本公開的一種示例性實施例中,所述評分函數包括根據所述第一評分函數對所述拼音序列的所有拼音子序列進行評分的第二評分函數,所述第二評分函數的定義為:
當所述拼音子序列為單一拼音字母時,所述拼音子序列的第二評分等于其第一評分;
當所述拼音子序列包括多個拼音字母時,所述拼音子序列的第二評分等于其第一子字符串的第二評分、其第二子字符串的第二評分與所述拼音子序列的第一評分之和的最小值,其中所述第一子字符串為所述拼音子序列的切分位置之前的子字符串,所述第二子字符串為所述切分位置之后的子字符串,所述切分位置包括所述拼音子序列的任意兩字母之間的位置。
在本公開的一種示例性實施例中,如果所述拼音子序列的第一評分不大于1,則停止計算所述拼音子序列的第二評分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于藝龍網信息技術(北京)有限公司,未經藝龍網信息技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710372798.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文本分類方法、裝置、介質及設備
- 下一篇:自然語言理解系統及其工作方法





