[發明專利]語種識別方法在審
| 申請號: | 202010891340.3 | 申請日: | 2020-08-30 |
| 公開(公告)號: | CN112016308A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 崔煒 | 申請(專利權)人: | 上海松鼠課堂人工智能科技有限公司 |
| 主分類號: | G06F40/263 | 分類號: | G06F40/263;G06F40/216 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 200237 上海市徐*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語種 識別 方法 | ||
本發明公開了一種語種識別方法,所述語種識別方法包括:接收輸入的需進行語種識別的待識別語種信息;根據接收的所述待識別語種信息,統計并獲取所述待識別語種信息中包含的詞語在對應語種中的出現頻率和排行信息;根據所述出現頻率和排行信息,計算所述待識別語種信息為對應語種的語種概率;根據計算得到的所述語種概率,確定所述待識別語種信息對應的語種;在確保語種識別正確率的同時,減少了數據運算量,提高了語種識別的速度。
技術領域
本發明涉及計算機技術領域,特別涉及一種語種識別方法。
背景技術
語種識別是指計算機根據輸入的語音數據,自動判斷該語音數據所屬的語言種類,例如漢語、德語、英語、法語或日語等。近年來,語種識別越來越顯示出其應用價值,在信息服務、軍事、網絡社交等領域得到了廣泛的應用。
目前,現有技術中所使用的語種識別的方案,大部分需要利用拉普拉斯變換模型進行濾波,或者使用高斯變換模型等復雜算法進行語種識別。現有技術中所采用的語種識別方案在大數據集上無法實際使用,算法復雜,需要較長的識別處理時間,因此識別速度慢,而且識別的準確率低,不能滿足當前語種識別的需求。
發明內容
本發明提供一種語種識別方法,用以確保語種識別準確率的前提下,減少數據運算量,提高語種識別速度。
本發明提供了一種語種識別方法,所述語種識別方法包括:
接收輸入的需進行語種識別的待識別語種信息;
根據接收的所述待識別語種信息,統計并獲取所述待識別語種信息中包含的詞語在對應語種中的出現頻率和排行信息;
根據所述出現頻率和排行信息,計算所述待識別語種信息為對應語種的語種概率;
根據計算得到的所述語種概率,確定所述待識別語種信息對應的語種。
進一步地,所述根據接收的所述待識別語種信息,統計并獲取所述待識別語種信息中包含的詞語在對應語種中的出現頻率和排行信息,包括:
根據接收到的所述待識別語種信息,統計所述待識別語種信息中各詞語的出現頻率;
根據所述詞語對應的所述出現頻率,按照所述出現頻率對所述詞語進行排序,得到每一個詞語對應的所述出現頻率在所述待識別語種信息中出現次數的排列順序所對應的排行信息;
其中,將所述出現頻率和排行信息分別記為f(m)和r(m),m表示所述待識別語種信息中的詞語的序號,m取值為1、2、3,…,M,M為所述詞語的序號對應的最大值,m為1時表示第一個詞語,m為2時表示第二個詞語,m取值M時表示第M個詞語。
進一步地,所述根據所述出現頻率和排行信息,計算所述待識別語種信息為對應語種的語種概率,包括:
根據已知語種的語種數據,統計并記錄所述待識別語種信息中各詞語在對應的已知語種中出現的已知頻率和已知排序;
根據所述出現頻率和排行信息,并結合所述已知頻率和已知排序,計算得到所述待識別語種信息為對應語種的語種概率。
進一步地,所述根據已知語種的語種數據,統計并記錄各詞語在對應的已知語種中出現的已知頻率和已知排序,包括:
收集已知語種的語種數據,得到每個語種分別對應的已知語種數據庫;其中,yi表示語種,i取1,2,…,Y;y1表示第一個語種,y2表示第二個語種,以此類推;Y表示所述已知語種數據庫中語種編號對應的最大值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海松鼠課堂人工智能科技有限公司,未經上海松鼠課堂人工智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010891340.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可交互學習流程生成方法和系統
- 下一篇:基于游戲化學習的學生計算能力分析方法





