[發明專利]一種數據檢測方法及裝置有效
| 申請號: | 201310552133.5 | 申請日: | 2013-11-08 |
| 公開(公告)號: | CN103593062A | 公開(公告)日: | 2014-02-19 |
| 發明(設計)人: | 薛永剛;項碧波 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F3/023 | 分類號: | G06F3/023 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 姜精斌 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 檢測 方法 裝置 | ||
1.一種數據檢測方法,其特征在于,該方法包括:
輸入多個訓練數據;
對訓練數據進行音節切分,獲取對應訓練切分結果;
將所述訓練切分結果作為訓練特征數據,生成預測模型;
使用所述預測模型檢測至少一個輸入數據,識別所述輸入數據中的字母串對應屬性特征。
2.權利要求1所述的方法,其特征在于,所述對應訓練切分結果數量最少且完整度最高。
3.如權利要求1或2所述的方法,其特征在于,所述對訓練數據進行音節切分,獲取對應訓練切分結果包括:
對所述訓練數據進行音節切分,得到至少一種切分形式;
將所述切分形式對照拼音表,按照正確音節和不完整音節分數從高到低計算音節分數和,選擇音節分數和最大的切分形式作為訓練切分結果。
4.如權利要求1-3任一項所述的方法,其特征在于,所述按照正確音節和不完整音節分數從高到低計算音節分數和,選擇音節分數和最大的切分形式作為訓練切分結果包括:
采用動態規劃法按照正確音節和不完整音節分數從高到低計算音節分數和,選擇音節分數和最大的切分形式作為訓練切分結果。
5.如權利要求1至4任一項所述的方法,其特征在于,所述生成預測模型為使用機器學習算法生成預測模型。
6.如權利要求1-5任一項所述的方法,其特征在于,所述機器學習算法包括支持向量機SVM算法或最大熵算法或最鄰近結點算法KNN。
7.如權利要求1-6任一項所述的方法,其特征在于,所述輸入數據中的字母串的對應屬性特征為英文字符串或者拼音字符串。
8.如權利要求1-7任一項所述的方法,其特征在于,使用所述預測模型檢測至少一個輸入數據,識別所述輸入數據中的字母串對應屬性特征包括:
判斷所述輸入數據是否為字母串;
當所述輸入數據為字母串,且所述輸入數據不在英文詞典中時,對所述輸入數據進行音節切分,獲取對應訓練切分結果;
將所述切分結果作為特征數據;
使用所述預測模型對所述特征數據進行分類,從而識別所述輸入數據中的字母串是英文串還是拼音串。
9.一種數據檢測裝置,其特征在于,該裝置包括:
訓練數據接收接口,適于接收多個訓練數據;
訓練模塊,用于對訓練數據進行音節切分,獲取對應訓練切分結果;
模型生成模塊,用于將所述訓練切分結果作為訓練特征數據,生成預測模型;
模型數據庫,適于存儲所述生成的預測模型;
數據輸入接口,適于輸入至少一個待識別的輸入數據
識別模塊,用于調用所述模型數據庫中的預測模型檢測所述待識別的輸入數據,識別所述待識別的輸入數據中的字母串對應屬性特征。
10.如權利要求9所述的裝置,其特征在于,所述訓練模塊包括:
切分子模塊,用于對所述訓練數據進行音節切分,得到至少一種切分形式;
計算子模塊,用于將所述切分形式對照拼音表,按照正確音節和不完整音節分數從高到低計算音節分數和,選擇音節分數和最大的切分形式作為訓練切分結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310552133.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種全自動環保處理機
- 下一篇:一種三維運動振動篩機構
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





