[發明專利]輸入法語料注音方法、生成評測語料的方法及電子裝置在審
| 申請號: | 201210486723.8 | 申請日: | 2012-11-26 |
| 公開(公告)號: | CN102982019A | 公開(公告)日: | 2013-03-20 |
| 發明(設計)人: | 景富香 | 申請(專利權)人: | 百度國際科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 倪志華 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輸入法 語料 注音 方法 生成 評測 電子 裝置 | ||
本發明公開了一種輸入法語料注音的方法、生成評測語料的方法及電子裝置。其中,語料注音的方法包括:利用至少兩個不同的注音工具對每個語料分別進行注音,以使得每個語料具有相應的至少兩個注音;判斷每個語料的至少兩個注音是否相同,若不同則選擇評估結果較優的注音以作為語料的正確注音,若相同則直接用注音作為語料的正確注音。通過上述方式,本發明能夠極大的減少需要人工校驗語料正確注音的工作量,提高語料注音的效率同時也提高語料注音的正確率。
技術領域
本發明涉及輸入法技術領域,特別是涉及輸入法語料注音方法、生成評測語料的方法及電子裝置。
背景技術
輸入法是指為了將各種符號輸入計算機或其他設備(如手機)而采用的編碼方法。輸入法的性能將直接影響在計算機或其他設備上的輸入效率。因此,需要對輸入法性能進行評測以為不斷完善輸入法提供依據。
輸入法的評測是通過在評測語料上進行錄入、選詞等操作,并在過程中記錄理想候選結果的位置及得到理想候選結果的編輯次數,最后統計在多個錄入、選詞過程中理想候選結果位置的分布和得到理想候選結果的編輯次數的平均值來反映輸入法的易用性??梢?,評測語料是輸入法評測的前提,因此,如何找到客觀、實用且正確的評測語料對輸入法的評測有著重要意義。
一般收集評測語料有手工收集和自動化方法收集。目前,采用手工收集評測語料的效率低,而一般的自動化方法生成的評測語料至少存在如下問題:切詞機制不合理,導致損失大部分用戶實際輸入的語料,使得獲取的語料不恰當,影響輸入法的評測結果;沒有成熟的注音工具對語料進行準確的注音。
發明內容
本發明主要解決的技術問題是提供輸入法語料注音方法、生成評測語料的方法及電子裝置,能夠提高評測語料的生成效率,同時生成的評測語料與用戶實際錄入較接近,延續性好,評測語料的注音正確率高。
為解決上述技術問題,本發明采用的一個技術方案是:提供一種語料注音的方法,包括:利用至少兩個不同的注音工具對每個所述語料分別進行注音,以使得每個語料具有相應的至少兩個注音;判斷每個所述語料的至少兩個注音是否相同,若不同則選擇評估結果較優的注音以作為所述語料的正確注音,若相同則直接用所述注音作為語料的正確注音。
為解決上述技術問題,本發明采用的另一個技術方案是:提供一種生成輸入法評測語料的方法,包括:將捕獲的歷史輸入內容切分成用戶單次錄入的至少一個語料;利用至少兩個不同的注音工具對每個所述語料分別進行注音,以使得每個語料具有相應的至少兩個注音;判斷每個所述語料的至少兩個注音是否相同,若不同則選擇評估結果較優的注音以作為所述語料的正確注音,若相同則直接用所述注音作為語料的正確注音,并將所述確定好正確注音的語料作為所述評測語料。
其中,所述將捕獲的歷史輸入內容切分成用戶單次錄入的語料的步驟包括:將捕獲的歷史輸入內容按照標點符號為分隔的臨界進行第一次切分;對所述第一次切分后的語料按照文節進行第二次切分,得到所述用戶單次錄入的語料。
其中,所述對第一次切分后的語料按照文節進行第二次切分的步驟包括:通過juman及knp對第一次切分后的語料按照文節進行第二次切分。
其中,所述將捕獲的歷史輸入內容切分成用戶單次錄入的語料的步驟之后,利用至少兩個不同的注音工具對所述語料進行注音的步驟之前,還包括:對切分得到的所述用戶單次錄入的語料進行去噪音處理,以消除其中無意義的語料。
其中,所述對切分得到的用戶單次錄入的語料進行去噪音處理的步驟包括:利用自定義的噪音規則對切分得到的所述用戶單次錄入的語料進行去噪音處理。
其中,所述對切分得到的用戶單次錄入的語料進行去噪音處理的步驟之后,還包括:對所述去噪音處理后的每個所述語料進行頻次計算,通過輪盤賭算法進行語料選取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度國際科技(深圳)有限公司,未經百度國際科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210486723.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種檢測場景變換的方法和系統
- 下一篇:一種拖泵用散熱器進油室結構





